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Scrapy 是 使 用 Python 开发 的 一 个 快速 、 高 层次 的 屏幕 抓 取 和 Web 抓 
取 框 架 ， 用 于 抓 Web 站 点 并 从 页 面 中 提取 结构 化 的 数据 。 本 书 以 Scrapy 
1.0 版 本 为 基础 ， 讲 解 了 Scrapy 的 基础 知识 ， 以 及 如 何 使 用 Python 和 三 方 
API 提 取 、 整 理 数据 ， 以 满足 自己 的 需求 。 


本 书 共 11 章 ， 其 内 容 涵盖 了 Scrapy 基 础 知识 ， 理 解 HTML 和 XPath， 
安装 Scrapy 并 疏 取 一 个 网 站 ， 使 用 爬虫 填充 数据 库 并 输出 到 移动 应 用 
中 ， 疏 虫 的 强大 功能 ， 将 爬虫 部 署 到 Scrapinghub 云 服务 器 ，Scrapy 的 配 
置 与 管理 ，Scrapy 编 程 ， 管 道 秘 诀 ， 理 解 Scrapy 性 能 ， 使 用 Scrapyd 与 实 
— —— 本 书 附录 还 提供 了 各 种 必 备 软件 的 安装 与 故障 


本 书 适 合 软件 开发 人 员 、 数 据 科 学 家 ， 以 及 对 目 然 语言 处 理 和 机 器 
学 习 感 兴趣 的 人 阅读 。 
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Dimitrios Kouzis-Loukas 作为 一 位 顶级 的 软件 开发 人 员 ， 已 经 拥有 
超过 15 年 的 经 验 。 同 时 ， 他 还 使 用 上 自己 掌握 的 知识 和 技能 ， 回 广大 读者 
讲授 如 何 编写 优秀 的 软件 。 


他 学 习 并 掌握 了 多 门 学 科 ， 包 括 数学 、 物 理学 以 及 微 电 子 学 。 他 对 
这 些 学 科 的 透彻 理解 ， 提 高 了 目 身 的 标准 ， 而 不 只 是 “实用 的 解决 方 
案 ”。 他 知道 真正 的 解决 方案 应 当 是 像 物理 学 规律 一 样 确 定 ， 像 ECC 内 
存 一 样 健壮 ， 像 数学 一 样 通用 。 


Dimitrios 目 前 正在 使 用 最 新 的 数据 中 心 技 术 开 发 低 延 迟 、 高 可 用 的 
分 布 式 系统 。 他 是 语言 无 关 论 者 ， 不 过 对 Python、C++ 和 Java 略 有 偏 
好 。 他 对 开源 软 便 件 有 着 坚定 的 信念 ， 他 和 希望 他 的 贡献 能 够 造福 于 各 个 
社区 和 全 人 类 。 











Lazar Telebak 是 一 位 自由 的 Web 开 发 人 员 ， 专 注 于 使 用 Python 库 / 
框架 进行 网 络 息 取 和 对 网 页 进行 索引 。 


他 主要 从 事 于 处 理 自动 化 和 网 站 扑 取 以 及 导出 数据 到 不 同 格式 ( 包 
括 CSV、JSON、XML 和 TXT) 和 数据 库 ( 如 MongoDB、SQLAlchemy 
和 Postgres) 的 项 目 。 








他 还 拥有 前 端 技术 和 语言 的 经 验 ， 包 括 HTML、CSS、JS 和 
jQuery. 
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日 似 。 


你 与 Scrapy 的 第 一 次 相遇 是 在 网 上 搜索 类 似 “Web scraping 
Python” 的 内 容 时 。 你 快速 对 其 进行 了 浏览 ， 然 后 想 * 这 太 复 杂 了 吧 .…… 
我 只 需要 一 些 人 简单 的 东西 。” 接 下 来 ， 你 使 用 Requests 库 开发 了 一 个 
Python 脚本 ， 并 且 挣 扎 于 Beautiful Soup 中 ， 但 最 终 还 是 完成 了 很 酷 的 工 
作 。 它 有 些 慢 ， 所 以 你 让 它 整 夜 运 行 。 你 重新 局 动 了 几 次 ， 忽 略 了 一 些 
不 完整 的 链接 和 非 英 文字 符 ， 到 早上 的 时 候 ， 大 部 分 网 站 已 经 * 骄 做 
地 ?存在 你 的 硬盘 中 了 。 然 而 难过 的 是 ， 不 知 什么 原因 ， 你 不 想 再 看 到 
自己 写 的 代码 。 当 你 下 一 次 再 想 抓 取 某 些 东 西 时 ， 则 会 直接 前 往 
scrapy.org， 而 这 一 次 文档 给 了 你 很 好 的 印象 。 现 在 你 可 以 感受 到 Scrapy 
能 够 以 优雅 且 轻 松 的 方式 解决 了 你 面临 的 所 有 问题 ， 甚 至 还 考虑 到 了 你 
没有 想到 的 问题 。 你 不 会 再 回头 了 。 


另 一 种 情况 是 ， 你 与 Scrapy 的 第 一 次 相遇 是 在 进行 网 络 爬 取 项 目的 
研究 时 。 你 需要 的 是 健壮 、 快 速 的 企业 级 应 用 ， 而 大 部 分 花哨 的 一 键 式 
网 络 爬 取 工 具 无 法 满足 需求 。 你 布 望 它 简单 ， 但 义 有 足够 的 灵活 性 ， 能 
够 让 你 为 不 同 源 定 制 不 同 的 行为 ， 提 供 不 同 的 输出 类 型 ， 并 且 能 够 以 目 
动 化 的 形式 保证 24/7 可 靠 运行 。 提 供 谎 取 服务 的 公司 似乎 太 贵 了 ， 你 觉 
得 使 用 开源 解决 方 采 比 固定 供应 商 更 加 舒服 。 从 一 开始 ，Scrapy 束 像 一 
个 确定 的 顾家 。 


无 论 你 是 出 于 何 种 目的 选择 了 本 书 ， 我 都 很 高 兴 能 够 在 这 本 专注 于 
Scrapy 的 图 书 中 遇 到 你 。Scrapy 是 全 世界 爬虫 专家 的 秘密 。 他 们 知道 如 
何 使 用 它 以 节省 工作 时 间 ， 提 供出 色 的 性 能 ， 并 且 使 他 们 的 主机 费用 达 
到 最 低 限 度 。 如 果 你 没有 太 多 经 验 ， 但 是 还 想 实 现 同样 的 结果 ， 那 么 很 
不 六 的 是 ，Google 并 没有 能 够 帮 到 你 。 网 络 上 大 多 数 Scrapy 信 息 要 么 大 
简单 低 效 ， 要 么 太 复 杂 。 对 于 那些 想 要 了 解 如 何 充分 利用 Scrapy 找 到 准 
确 、 易 理解 且 组 织 展 好 的 信息 的 人 们 来 说 ， 本 书 是 非常 有 必要 的 。 我 希 
望 本 书 能 够 帮助 Scrapy 社 区 进一步 发 展 ， 并 使 其 得 以 广泛 应 用 。 





























本 书 内 容 


第 1 章 ，Scrapy 和 简介， 介绍 本 书 和 Scrapy， 可 以 让 你 对 该 框架 及 本 
书 剩余 部 分 有 一 个 明确 的 期 望 。 


第 2 章 ， 理 解 HIML 和 XPath， 则 在 使 仆 虫 初学 者 能 够 快速 了 解 
Web 相 关 技 术 以 及 我 们 后 续 将 会 使 用 的 技巧 。 


第 3 章 ， 疏 虫 基础 ， 介 绍 了 如 何 安装 Scrapy， 并 怜 取 一 个 网 站 。 我 
们 通过 回 你 展示 每 一 个 行动 背后 的 方法 和 思路 ， 逐 步 开 发 该 示例 。 学 习 
SCARE Za, VOR He MEAL AC HB oy f8] AY PX ark e 


第 4 蔓 ， 从 Scrapy 到 移动 应 用 ， 展 示 了 如 何 使 用 我 们 的 爬虫 填充 数 
据 库 并 输出 给 移动 应 用 。 本 章 过 后 ， 你 将 清晰 地 认识 到 疏 虫 在 市 场 方面 
所 带 来 的 好 处 。 


第 5 章 ， 迅 速 的 爬虫 技巧 ， 展 示 了 更 强大 的 爬虫 功能 ， 包 括 登 录 、 
更 快速 地 抓 取 、 消 费 API 以 及 礁 取 UREL 列 表 。 


第 6 章 ， 部 普 到 Scrapinghub， 展 示 了 如 何 将 爬虫 部 署 到 Scrapinghub 
的 云 服 务 器 中 ， 并 享受 其 带 来 的 可 用 性 、 易 部 署 以 及 可 探 性 等 特性 。 


第 7 章 ， 配 置 与 管理 ， 以 组 织 良 好 的 表现 形式 介绍 了 大 量 的 Scrapy 
功能 ， 这 些 功 能 可 以 通过 Scrapy 配 置 启 用 或 调整 。 


第 8 瘟 ，Scrapy 编 程 ， 通 过 展示 如 何 使 用 底层 的 Twisted 引 擎 和 
Scrapy 架 构 对 其 功能 的 各 个 方面 进行 扩展 ， 将 我 们 的 知识 带 入 一 个 全 新 
的 水 平 。 

第 9 章 ， 管 道 秘 诀 ， 提 供 了 许多 示例 ， 在 这 里 我 们 修改 了 Scrapy 的 
一 些 功能 ， 在 不 会 造成 性 能 退化 的 情况 下 ， 将 数据 插入 到 数据 库 〈 比 如 
MySQL. Elasticsearch/*Redis) 、 接 口 API， 以 及 遗留 应 用 中 。 


第 10 章 ， 理 解 Scrapy 性 能 ， 将 帮助 我 们 理解 Scrapy 的 时 间 是 如 何 花 











费 的 ， 以 及 我 们 需要 怎么 做 来 提升 其 性 能 。 


第 11 瘟 ， 使 用 Scrapyd 与 实时 分 析 进 行 分 布 式 爬 取 ， 这 是 本 书 最 后 
一 革 ， 展 示 了 如 何在 多 台 服 务 器 中 使 用 Scrapyd 实 现 模 回 扩 展 ， 以 及 如 
何 将 爬 取得 到 的 数据 提供 给 Apache Spark 服 务 器 以 执行 数据 流 分 析 。 








阅读 本 书 的 前 提 


为 了 使 本 书 代 码 和 内 容 的 受众 尽 可 能 广泛 ， 我 们 付出 了 大 量 的 努 
力 。 我 们 希望 提供 涉及 多 服务 器 和 数据 库 的 有 趣 示 例 ， 不 过 我 们 并 不 项 
望 你 必须 完全 了 解 如 何 创建 它们 。 我 们 使 用 了 一 个 称 为 Vagrant 的 伟大 
技术 ， 用 于 在 你 的 计算 机 中 上 自动 下 载 和 创建 一 次 性 的 多 服务 器 环境 。 我 
们 的 Vagrant 配 置 在 Mac OS X 和 Windows 上 时 使 用 了 虚拟 机 ， 而 在 Linux 
上 则 是 原生 运行 。 


对 于 Windows 和 Mac OS X， 你 需要 一 个 支持 Intel 或 AMD 虚 拟 化 技 
术 〈VT-x 或 AMD-v) 的 64 位 计算 机 。 大 多 数 现 代 计 算 机 都 没有 问题 。 
对 于 大 部 分 章节 来 说 ， 你 还 需要 专门 为 虚拟 机 准备 1GB 内 存 ， 不 过 在 第 
9 章 和 第 11 章 中 则 需要 2GB 内 存 。 附录 人 A 讲解 了 安装 必要 软件 的 所 有 细 
"He 




















Scrapy 本 喘 对 人 硬件 和 软件 的 需求 更 加 有 限 。 如 果 你 是 一 位 有 经 验 的 
读者 ， 并 且 不 想 使 用 Vagrant， 也 可 以 根据 第 3 章 的 内 容 在 任何 操作 系 
统 中 安装 Scrapy， 即 使 其 内 存 十 分 有 限 。 


当 你 成 功 创建 Vagrant 环 境 后 ， 无 需 网 络 连接 ， 就 可 以 运行 本 书 几 
— (第 4 章 和 第 6 章 的 示例 除外 ) 。 是 的 ， 你 可 以 在 航班 上 阅 
AB TL 
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本 书 尝试 着 去 适应 广泛 的 读者 群体 。 它 可 能 适合 如 下 人 群 : 


需要 源 数据 驱动 应 用 的 互联 网 创业 者 ; 
5 取 数 据 进 行 分 析 或 训练 模型 的 数据 科学 家 与 机 器 学 习 从 业 


需要 开发 大 规模 把 虫 基础 架构 的 软件 工程 师 ; 
想 要 为 其 下 一 个 很 酷 的 项 目 在 树 奏 派 上 运行 Scrapy 的 爱好 者 。 


就 必 备 知识 而 言 ， 阅 读本 书 只 需要 用 到 很 少 的 部 分 。 在 最 开始 的 几 
半 中 ， 本 书 为 那些 几乎 没有 疏 虫 经 验 的 读者 提供 了 网 络 技术 和 扑 虫 的 基 
础 知识 。Python 易 于 阅读 ， 对 于 有 其 他 编程 语言 基本 经 验 的 任何 读者 来 
说 ， 与 仆 忠 相关 的 半 市 中 给 出 的 大 部 分 代码 都 很 易于 理解 。 


坦率 地 说 ， 我 相信 如 果 一 个 人 在 心中 有 一 个 项 目 ， 并 且 想 使 用 
Scrapy 的 话 ， 他 就 能 够 修改 本 书 中 的 示例 代码 ， 并 在 几 个 小 时 之 内 良好 
地 运行 起 来 ， 即 使 这 个 人 之 前 没有 谎 虫 、Scrapy 或 Python 经 验 。 


在 本 书 的 后 半 部 分 中 ， 我 们 将 变 得 更 加 依赖 于 Python， 此 时 初学 者 
可 能 希望 在 进一步 研究 之 前 ， 先 让 自己 用 几 个 星期 的 时 间 丰 富 Scrapy 的 
基础 经 验 。 此 时 ， 更 有 经 验 的 Python/Scrapy 开 发 者 将 学 习 使 用 Twisted 进 
行事 件 驱 动 的 Python 开 发 ， 以 及 非常 有 趣 的 Scrapy 内 部 知识 。 在 性 能 章 
节 ， 一 些 数学 知识 可 能 会 有 用 处 ， 不 过 即使 没有 ， 大 多 数 图 表 也 能 给 我 
们 清晰 的 感受 。 











第 1 半 ” Scrapy 人 简介 


欢迎 来 到 你 的 Scrapy 之 旅 。 通 过 本 书 ， 我 们 骨 在 将 你 从 一 个 只 有 很 
少 经 验 其 至 没有 经 验 的 Scrapy 初 学 者 ， 打 造成 拥有 信心 使 用 这 个 强大 的 
框架 从 网 络 或 者 其 他 源 爬 取 大 数据 集 的 Scrapy 专 家 。 本 章 将 介绍 
Scrapy， 并 且 告 诉 你 一 些 可 以 用 它 实 现 的 很 棒 的 事情 。 


1.1 初 识 Scrapy 


Scrapy 是 一 个 健壮 的 网 络 框架 ， 它 可 以 从 各 种 数据 源 中 抓 取 数 据 。 
作为 一 个 普通 的 网 络 用 户 ， 你 会 发 现 自己 经 常 需 要 从 网 站 上 获取 数据 ， 
使 用 类 似 Excel 的 电子 表格 程序 进行 浏览 《参见 第 3 章 ) ， 以 便 离 线 访问 
数据 或 者 执行 计算 。 而 作为 一 个 开发 者 ， 你 需要 经 党 整合 多 个 数据 源 的 
数据 ， 但 又 十 分 清楚 获得 和 抽取 数据 的 复杂 性 。 无 论 难 易 ，Scrapy 都 可 
以 帮助 你 完成 数据 抽取 的 行动 。 


以 健壮 而 又 有 效 的 方式 抽取 大 量 数据 ，Scrapy 已 经 拥有 了 多 年 经 
验 。 使 用 Scrapy， 你 只 需 一 个 简单 的 设置 ， 束 能 完成 其 他 爬虫 框架 中 需 
要 很 多 类 、 揪 件 和 配置 项 才能 完成 的 工作 。 人 快速 浏览 第 7 章 ， 你 就 能 体 
会 到 通过 简单 的 几 行 配置 ，Scrapy 可 以 实现 多 少 功能 。 


从 开发 者 的 角度 来 说 ， 你 也 会 十 分 欣赏 Scrapy 的 基于 事件 的 架构 
(我 们 将 在 第 8 章 和 第 9 章 中 对 其 进行 深入 探讨 ) 。 它 允许 我 们 将 数据 清 
洗 、 格 式 化 、 闭 饰 以 及 将 这 些 数据 存储 到 数据 库 中 等 操作 级 联 起 来 ， 只 
要 我 们 操作 得 当 ， 人 性 能 降低 就 会 很 小 。 在 本 书 中 ， 你 将 学 会 怎样 可 以 达 
到 这 一 目的 。 从 技术 上 讲 ， 由 于 Scrapy 是 基于 事件 的 ， 这 就 能 够 让 我 们 
在 拥有 上 千 个 打开 的 连接 时 ， 可 以 通过 平稳 的 操作 拆 分 吞吐 量 的 延迟 。 
来 看 这 样 一 个 极 问 的 例子 ， 假 设 你 需要 从 一 个 拥有 汇总 页 的 网 站 中 抽取 


站 中 并 行 执行 16 个 请 求 ， 假 设 完成 一 个 请 求 平 均 需 要 人 花费 1 秒 钟 的 时 

间 ， 你 可 以 每 秒 息 取 16 个 页 面 。 如 果 将 其 与 每 页 的 房 源 数 相 乘 ， 可 以 得 
出 每 秒 将 产生 1600 个 房 源 。 想 象 一 下 ， 如 果 每 个 房 源 都 必须 在 大 规模 并 
行 云 存储 当中 执行 一 次 写 入 ， 每 次 写 入 平均 需要 耗费 3 秒 钟 的 时 间 〈 非 
PARET) 。 为 了 文 持 每 秒 16 个 请 求 的 吞吐 量 ， 就 需要 我 们 并 行 运行 
1600 x 3 = 4800 次 写 入 请 求 〈 你 将 在 第 9 章 中 看 到 很 多 这 样 有 趣 的 计 
算 ) 。 对 于 一 个 传统 的 多 线程 应 用 而 言 ， 则 需要 转变 为 4800 个 线程 ， 无 
论 是 对 你 ， 还 是 对 操作 系统 来 说 ， 这 部 会 是 一 个 非常 糟糕 的 体验 。 而 在 
Scrapy 的 世界 中 ， 只 要 操作 系统 没有 问题 ，4800 个 并 友 请 求 就 能 够 处 

理 。 此 外 ，Scrapy 的 内 存 需求 和 你 需要 的 房 源 数据 量 很 接近 ， 而 对 于 多 
as 


















































简 而 言 之 ， 绥 慢 或 不 可 预测 的 网 站 、 数 据 库 或 远程 API 都 不 会 对 
Scrapy 的 性 能 产生 毁灭 性 的 结果 ， 因 为 你 可 以 并 行 运行 多 个 请 求 ， 并 通 
过 单一 线程 来 管理 它们 。 这 意味 着 更 低 的 主机 托管 费用 ， 与 其 他 应 用 的 
oe 以 及 相 比 于 传统 多 线程 应 用 而 言 更 简单 的 代码 无 同步 需 
XO. 








1.2 ”喜欢 Scrapy 的 更 多 理由 


Scrapy 已 经 拥有 超过 5 年 的 历史 了 ， 成 熟 而 又 稳定 。 除 了 上 一 节 中 
提 到 的 性 能 优势 外 ， 还 有 下 面 这 些 能 够 让 你 爱 上 Scrapy 的 理由 。 


e Scrapy 能 够 识别 残缺 的 HTML 
你 可 以 在 Scrapy 中 直接 使 用 Beautiful Soup 或 lxml， 不 过 Scrapy 还 提 


供 了 一 种 在 lxml 之 上 更 高 级 的 XPath (主要 ) 接口 selectors。 它 能 够 
更 高 效 地 处 理 残 缺 的 HTML 代 码 和 混乱 的 编码 。 





e 社区 


Scrapy 拥 有 一 个 充满 活力 的 社区 。 只 需要 看 看 https://groups. 
google.com/ forum/#!forum/scrapy-users ”上 的 邮件 列表 ， 以 及 Stack 
Overflow 网 站 (http:// stackoverflow.com/questions/tagged/ scrapy) 中 的 
上 和 于 个 问题 就 可 以 知道 了 。 大 部 分 问题 都 能 够 在 几 分 钟 内 得 到 回应 。 更 
多 社区 资源 可 以 从 http://scrapy.org/ community/ 中 获取 到 。 


。 社区 维护 的 组 织 民 好 的 代码 


Scrapy 要 求 以 一 种 标准 方式 组 织 你 的 代码 。 你 只 需 编 写 被 称 为 爬虫 
和 管道 的 少量 python 模块， 并 且 还 会 自动 从 引 敬 自身 获取 到 未 来 的 任何 
改进 。 如 果 你 在 网 上 搜索 ， 可 以 友 现 有 相当 多 专业 人 士 拥 有 Scrapy 经 
验 。 也 就 是 说 ， 你 可 以 很 容易 地 找到 人 来 维护 或 扩展 你 的 代码 。 无 论 是 
eee Me ARR KKR, RAR A) A XE SQ n rp 
I 特别 之 处 。 











© 越 来 越 多 的 高 质量 功能 


如 果 你 快速 浏览 发 布 日 志 (http://doc.scrapy.org/en/latest/ 





news.html) ， 就 会 注意 到 无 论 是 在 功能 上 ， 还 是 在 稳定 性 /bug 修 复 上 ， 
Scrapy 都 在 不 断 地 成 长 。 


13 X TR B: Ame 


在 本 书 中 ， 我 们 的 目标 是 通过 重点 示例 和 真实 数据 集 教 你 使 用 
Scrapy。 大 部 分 章 贡 将 专注 于 不 取 一 个 示例 的 房屋 租赁 网 站 。 我 们 选择 
这 个 例子 ， 是 因为 它 能 够 代表 大 多 数 的 网 站 怜 取 项 目 ， 既 能 让 我 们 介绍 
感 兴趣 的 变动 ， 又 不 失 简 单 。 以 该 示例 为 主题 ， 可 以 帮助 我 们 聚焦 于 
Scrapy， 而 不 会 分 心 。 


我 们 将 从 只 运行 几 百 个 页 面 的 小 爬虫 开始 ， 最 终 在 第 11 章 中 使 用 几 
分 钟 的 时 间 ， 将 其 扩展 为 能 够 处 理 5 万 个 页 面 的 分 布 式 怜 虫 。 在 这 个 过 
程 中 ， 我 们 将 向 你 介绍 如 何 将 Scrapy 与 MySQL、Redis 和 Elasticsearch 等 
服务 相连 接 ， 使 用 Google 的 地 理 编码 API 找 到 我 们 示例 属性 中 的 位 置 坐 
标 ， 以 及 向 Apache Spark 提 供 数据 用 于 预测 最 影响 房价 的 关键 词 。 


你 需要 做 好 阅读 本 书 多 次 的 准备 。 你 可 能 需要 从 略 读 开 始 ， 先 理解 
其 架构 。 然 后 秽 读 一 到 两 章 ， 仔 细 学 习 、 实 验 一 段 时 间 ， 再 进入 后 面 的 
章节 。 如 果 你 觉得 上 自己 已 经 熟悉 了 某 一 章 的 内 容 ， 那 么 跳 过 这 一 章 也 无 
需 担心 。 尤 其 是 如 果 你 已 经 了 解 HTML 和 XPath， 那 么 就 没有 必要 花费 
太 多 时 间 在 第 2 章 上 面 了 。 不 用 担心 ， 对 你 来 说 本 书 还 有 很 多 需要 学 习 
的 内 容 。 一 些 章节 ， 比 如 第 8 章 ， 将 参考 书 和 教程 的 元 素 结合 起 来 ， 深 
入 编程 概念 。 这 就 是 一 个 例子 ， 我 们 可 能 会 阅读 某 一 章 几 次 ， 在 这 中 间 
允许 我 们 有 几 个 星期 的 时 间 实 践 Scrapy。 你 在 继续 阅读 后 续 的 章节 ， 比 
如 以 应 用 为 主 的 第 9 章 之 前 ， 不 需要 完美 掌握 第 8 章 中 的 内 容 。 阅 读 后 续 
的 内 容 ， 有 助 于 你 理解 如 何 使 用 编程 概念 ， 如 果 你 愿意 的 话 ， 可 以 回 过 
头 来 反复 阅读 几 次 。 


为 使 本 书 既 有 趣 ， 又 对 初学 者 友好 ， 我 们 已 经 试图 做 了 平衡 。 不 过 
我 们 不 会 做 的 一 件 事情 是 ， 在 本 书 中 教授 Python。 对 于 这 一 主题 ， 目 前 
已 经 有 了 很 多 优秀 的 书籍 ， 不 过 我 更 加 建议 的 是 以 一 种 轻松 的 心态 来 学 
习 。Python 如 此 流行 的 一 个 理由 是 因为 它 比 较 简 单 、 整 洁 ， 并 且 阅 读 起 
来 更 近似 于 英文 。Scrapy 是 一 个 高 级 框架 ， 无 论 是 初学 者 还 是 专家 ， 孝 
需要 学 习 。 你 可 以 将 其 称 之 为 “Scrapy 语 言 "。 因 此 ， 我 会 推荐 你 通过 材 
料 来 学 习 Python， 如 果 你 发 觉 自 己 对 于 Python 的 语法 比较 迷惑 ， 那 么 可 
以 通过 一 些 Python 的 在 线 教程 或 Coursera 等 为 Python 初学 者 开设 的 免费 





















































在 线 课 程 予 以 补充 。 请 放心 ， 即 使 你 不 是 Python 专家 ， 也 能 够 成 为 一 名 
优秀 的 Scrapy 开 发 者 。 


1.4 等 握 目 动 化 数据 爬 取 的 重要 性 


对 于 大 多 数 人 来 说 ， 掌 握 一 门 像 Scrapy 这 样 很 酷 的 技术 所 带 来 的 好 
奇 心 和 精神 上 的 满足 ， 足 以 激励 我 们 。 令 人 惊喜 的 是 ， 在 学 习 这 个 优秀 
a ee We 
市 来 的 好 处 。 


1.4.1 开发 健壮 且 高 质量 的 应 用 ， 并 提供 合理 规划 


为 了 开发 现代 化 的 高 质量 应 用 ， 我 们 需要 真实 的 大 数据 集 ， 如 果 可 
能 的 话 ， 在 开始 动手 写 代 码 之 前 就 应 该 进行 这 一 步 。 现 代 化 软件 开发 就 
征 实时 处 理 大 量 不 完善 数据 ， 并 从 中 提取 出 知识 和 有 价值 的 情报 。 当 我 
们 开发 软件 并 应 用 于 大 数据 集 时 ， 一 些小 的 错误 和 玻 忽 难以 家 检测 出 
来 ， 就 有 可 能 导致 昂贵 的 错误 决策 。 比 如 ， 在 做 人 口 统计 学 研究 时 ， 很 
容易 发 生 仅 仅 是 由 于 州 名 过 长 导致 数据 被 默认 丢弃 ， 造 成 整个 州 的 数据 
被 忽视 的 错误 。 在 开发 阶段 ， 甚 至 更 早 的 设计 探索 阶段 ， 通 过 细心 抓 
取 ， 并 使 用 具有 生产 质量 的 真实 世界 大 数据 集 ， 可 以 帮助 我 们 发 现 和 修 
复 错误 ， 做 出 明智 的 工程 决策 。 


另外 一 个 例子 是 ， 假 设 你 想 要 设计 Amazon 风 格 的 “如 果 你 喜欢 这 个 
商品 ， 也 可 能 喜欢 那个 商品 ?的 推荐 系统 。 如 果 你 能 够 在 开始 之 前 ， 先 
息 取 并 收集 真实 世界 的 数据 集 ， 就 会 很 快意 识 到 有 关 无 效 条 目 、 停 产 商 
品 、 章 复 、 无 效 字 符 以 及 偏 态 分 布 引起 的 性 能 瓶 贷 等 问题 。 这 些 数据 将 
会 强迫 你 设计 足够 健壮 的 算法 ， 无 论 是 数 千 人 购买 过 的 商品 ， 还 是 零 销 
售 量 的 新 条 目 ， 都 能 够 很 好 地 处 理 。 而 孤立 的 软件 开发 ， 可 能 会 在 几 个 
星期 的 开发 之 后 ， 也 要 面 对 这 些 丑 陋 的 真实 世界 数据 。 虽 然 这 两 种 方法 
最 终 可 能 会 收敛 ， 但 是 为 你 提供 进度 预 估 承 话 的 能 力 以 及 软件 的 质量 ， 
都 将 随 着 项 目 进展 而 产生 显著 差别 。 从 数据 开始 ， 能 够 禹 给 我 们 更 加 愉 
悦 并 且 可 预测 的 软件 开发 体验 。 


1.4.2 ”快速 开发 高 质量 最 小 可 行 产 品 


对 于 初创 公司 而 言 ， 大 规模 真实 数据 的 集 甚至 更 加 必要 。 你 可 能 听 
说 过 “精益 创业 ， 这 是 由 Eric Ries 创 造 的 一 个 术语 ， 用 于 描述 类 似 技术 



































初创 公司 这 样 极 端 不 确定 条 件 下 的 业务 发 展 过 程 。 该 框架 的 一 个 关键 概 
念 是 最 小 可 行 产 品 (Minimum Viable Product, MVP) ， 这 种 产品 只 
有 有 限 的 功能 ， 可 以 被 快速 开发 并 同 有 限 的 客户 发 布 ， 用 于 测试 反 啊 及 
验证 业务 假设 。 基 于 获得 的 反馈 ， 初 创 公 司 可 能 会 选择 继续 更 进一步 的 
投资 ， 也 可 能 是 转 同 其 他 更 有 前 景 的 方 问 。 


在 该 过 程 中 的 某 些 方面 ， 很 容易 忽视 与 数据 紧密 连接 的 问题 ， 这 正 
是 Scrapy 所 能 为 我 们 做 的 部 分 。 比 如 ， 当 邀请 潜在 的 客户 尝试 使 用 我 们 
的 手机 应 用 时 ， 作 为 开发 者 或 企业 主 ， 会 要 求 他 们 评判 这 些 功 能 ， 想 象 
应 用 在 完成 时 看 起 来 应 该 如 何 。 对 于 这 些 并 非 专家 的 人 而 言 ， 这 里 需要 
的 想象 有 可 能 太 多 了 。 这 个 差距 相当 于 一 个 应 用 只 展示 了 “产品 1*”、“ 产 
品 2”“ 用 户 433”， 而 另 一 个 应 用 提供 了 "三星 UN55J6200 553t^] E4 
机 ”、 用 户 “Richard  S” 给 出 了 五 星 好 评 以 及 能 够 让 你 直达 产品 详情 页 面 
(尽管 事实 上 我 们 还 没有 写 这 个 页 面 ) 的 有 效 链接 等 诸多 信息 。 人 们 很 
R00 0 


一 些 初创 企业 将 数据 作为 事后 考虑 的 原因 之 一 是 认为 收集 这 些 数据 
需要 昂贵 的 代价 。 的 确 ， 我 们 通常 需要 开发 表单 及 管理 界面 ， 并 花费 时 
间 录 入 数据 ， 但 我 们 也 可 以 在 编写 代码 之 前 使 用 Scrapy 礁 取 一 些 网 站 。 
a ee ee 

么 容易 。 


1.4.3 Google 不 会 使 用 表单 ， 怜 取 才 能 扩大 规模 


当 谈 及 表单 时 ， 让 我 们 来 看 下 它 是 如 何 影响 产品 增长 的 。 想 象 一 
下 ， 如 果 Google 的 创始 人 在 创建 其 引擎 的 第 一 个 版 本 时 ， 包 含 了 一 个 每 
名 网 站 管理 员 都 需要 填写 的 表单 ， 要 求 他 们 把 网 站 中 每 一 页 的 文字 都 复 
制 粘贴 过 来 。 然 后 ， 他 们 需要 接受 许可 协议 ， 人 允许 Google 人 处理、 存储 和 和 
展示 他 们 的 内 容 ， 并 剔除 大 部 分 广告 利润 。 你 能 想象 解释 该 想法 并 说 服 
人 们 参与 这 一 过 程 所 需 花费 的 时 间 和 精力 会 有 多 大 吗 ? 即使 市 场 非 常 泡 
望 一 个 优秀 的 搜索 引擎 〈 事 实 正 是 如 此 ) ， 这 个 引擎 也 不 会 是 Google， 
因为 它 的 增长 过 于 缓慢 。 即 使 是 最 复杂 的 算法 ， 也 不 能 弥补 数据 的 缺 
失 。Google 使 用 网 络 朴 虫 技术 ， 在 页 面 间 跳 园 链 接 ， 填 充 其 庞 大 的 数据 
库 。 网 站 管理 员 则 不 需要 做 任何 事情 。 实 际 上 ， 上 反而 还 需要 一 些 努 力 才 
能 阻止 Google 索 引 你 的 页 面 。 


里 然 Google 使 用 表单 的 想法 听 起 来 有 些 元 座 ， 但 是 一 个 典型 的 网 站 









































mid HIA EXE? 登录 表单 、 新 房 源 表单 、 结 账 表单 ， 等 等 。 
这 些 表 单 中 有 多 少 会 阻碍 应 用 增长 呢 ? 如 果 你 充分 了 解 你 的 受众 / 客 
户 ， 很 可 能 已 经 拥有 关于 他 们 通常 使 用 并 且 很 可 能 已 经 有 账号 的 其 他 网 
站 的 线索 了 。 比 如 ， 一 个 开发 者 很 可 能 拥有 Stack ”Overflow 和 GitHub 的 
账号 。 那 么 ， 在 获得 他 们 允许 的 情况 下 ， 你 是 否 能 够 抓 取 这 些 站 点 ， 只 
需 他 们 提供 给 你 用 户 名 ， 就 能 自动 填充 上 照片、 简介 和 一 小 部 分 近期 文章 
呢 ? 你 能 否 对 他 们 最 感 兴 趣 的 一 些 文章 进行 快速 文本 分 析 ， 并 根据 其 调 
整 网 站 的 导航 结构 ， 以 及 建议 的 产品 和 服务 呢 ? 我 希望 你 能 够 看 到 如 何 
Deere a Reps itu 
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1.4.4 发现 并 融入 你 的 生态 系统 


抓 取 数据 目 然 会 让 你 发 现 并 考虑 与 你 付出 相关 的 社区 的 关系 。 当 你 
抓 取 一 个 数据 源 时 ， 很 目 然 地 融会 产生 一 些 问题 : 我 是 否 相 信和 他 们 的 数 
据 ? 我 是 否 相 信 获 取 数 据 的 公司 ? 我 是 否 需要 和 他 们 沟通 以 获得 更 正式 
的 合作 ? 我 和 他 们 是 竞争 关系 还 是 合作 关系 ? 从 其 他 源 获得 这 些 数据 会 
花费 我 多 少 钱 ? 无 论 如 何 ， 这 些 商业 风险 都 是 存在 的 ， 不 过 抓 取 过 程 可 
以 帮助 我 们 尽早 意识 到 这 些 风险 ， 并 制定 出 缓解 策略 。 


你 还 会 发 现 目 己 想 知道 能 够 为 这 些 网 站 和 社区 带 来 的 回馈 是 什么 。 
如 果 你 能 够 给 他 们 带 来 免费 的 流量 ， 他 们 应 该 会 很 蝇 兴 。 力 一 方面 ， 如 
果 你 的 应 用 不 能 给 你 的 数据 源 带 来 一 些 价 值 ， 那 么 你 们 的 关系 可 能 会 很 
短暂 ， 除 非 你 与 他 们 沟通 ， 并 找到 合作 的 方式 。 通 过 从 不 同 源 获 取 数 
据 ， 你 需要 准备 好 开发 对 现 有 生态 系统 更 友好 的 产品 ， 充 分 导 重 已 有 的 
市 场 参与 者 ， 只 有 在 值得 努力 时 才 可 以 去 破坏 当前 的 市 场 秩序 。 现 有 的 
参与 者 也 可 能 会 帮助 你 成 长 得 更 快 ， 比 如 你 有 一 个 应 用 ， 使 用 两 到 三 个 
不 同 生态 系统 的 数据 ， 每 个 生态 系统 有 10 万 个 用 户 ， 你 的 服务 可 能 最 终 
将 这 30 万 个 用 尸 以 一 种 创造 性 的 方式 连接 起 来 ， 从 而 使 每 个 生态 系统 都 
获 蔓 。 例 如 ， 你 成 立 了 一 个 初创 公司 ， 将 摇滚 乐 与 工人 血 印 花 社 区 关联 起 
来 ， 你 的 公司 最 终 将 成 为 两 种 生态 系统 的 融合 ， 你 和 相应 的 社区 都 将 从 
中 获 益 并 得 以 成 长 。 
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当 开 及 疏 虫 时 ， 还 有 一 些 事情 需要 清楚 。 不 负责 任 的 网 络 朴 虫 会 令 
人 不 悦 ， 甚 至 在 茶 些 情况 下 是 违法 的 。 有 两 个 非常 重要 的 事情 是 避免 类 
似 拒 绝 服 务 〈DoS) 攻击 的 行为 以 及 侵犯 版 权 。 


对 于 第 一 种 情况 ， 一 个 典型 的 访问 者 可 能 每 几 秒 访问 一 个 新 的 页 
面 。 而 一 个 典型 的 网 络 爬 虫 则 可 能 每 秒 下 载 数 十 个 页 面 。 这 样 就 比 典 型 
用 户 产 生 的 流量 多 出 了 10 倍 以 上 。 这 可 能 会 使 网 站 所 有 者 非常 不 高 兴 。 
请 使 用 流量 限 速 将 你 产生 的 流量 减少 到 可 以 接受 的 普通 用 户 的 水 平 。 此 
外 ， 还 应 该 监控 响应 时 间 ， 如 果 发 现 响应 时 间 增 加 了 ， 就 需要 降低 聆 虫 
的 强度 。 好 消息 是 Scrapy 对 于 这 些 功 能 都 提供 了 开 箱 即 用 的 实现 (参见 
第 7 章 ) 。 


对 于 版 权 问题 ， 显 然 你 需要 看 一 下 你 抓 取 的 每 个 网 站 的 版 权 声明 ， 
并 确保 你 理解 其 允许 做 什么 ， 不 允许 做 什么 。 大 多 数 网 站 都 允许 你 处 理 
其 站 点 的 信息 ， 只 要 不 以 自己 的 名 义 重 新 发 布 即 可 。 在 你 的 请 求 中 ， 有 
一 个 很 好 的 user-Agent 字 段 ， 它 可 以 让 网 站 管理 员 知 道 你 是 谁 ， 你 用 他 
们 的 数据 做 什么 。Scrapy 在 制造 请 求 时 ， 默 认 使 用 BoT_NAME 参 数 作 
为 User -Agent。 如 果 User-Agent 是 一 个 URL 或 者 能 够 指明 你 的 应 用 名 
称 ， 那 么 网 站 管理 员 可 以 通过 访问 你 的 站 点 ， 更 多 地 了 解 你 是 如 何 使 用 
他 们 的 数据 的 。 另 一 个 非常 重要 的 方面 是 ， 请 允许 任何 网 站 管理 员 阻 目 
你 访问 其 网 站 的 指定 区 域 。 对 于 基于 Web 标 准 的 robots.txt 文 件 (参见 
http://www.google.com/robots.txt 的 文件 示例 ) ，Scrapy 提 供 了 用 于 尊重 
网 站 管理 员 设 置 的 功能 CRobotsTxtMiddleware) 。 最 后 ， 最 好 加 网 站 管 
理 员 提供 一 些 方法 ， 让 他 们 能 说 明 不 希望 在 你 的 爬虫 中 出 现 的 东西 。 至 
少 网 站 管理 员 必 须 能 够 很 容易 地 找到 和 你 交流 及 表达 顾虑 的 方式 。 



































1.6 Scrapy hæt 











最 后 ， 很 容易 误解 Scrapy 可 以 为 你 做 什么 ， 主 要 是 因为 数据 抓 取 这 
个 术语 与 其 相关 术语 有 些 模糊 ， 很 多 术语 是 交 瞧 使 用 的 。 我 将 尝试 使 这 
些 方面 更 加 清楚 ， 以 防止 混淆 ， 为 你 节省 一 些 时 间 。 


Scrapy 不 是 Apache ”Nutch， 世 就 是 说 ， 它 不 是 一 个 通用 的 网 络 扑 
虫 。 如 果 Scrapy 访 问 一 个 一 无 所 知 的 网 站 ， 它 将 无 法 做 出 任何 有 意义 的 
事情 。Scrapy 是 用 于 提取 结构 化 信息 的 ， 需 要 人 工 介 入 ， 设 置 合 适 的 
XPath 或 CSS 表 达 式 。 而 Apache ”Nutch 则 是 获取 通用 页 面 并 从 中 提取 信 
晨 ， 比 如 关键 字 。 它 可 能 更 适合 于 一 些 应 用 ， 但 对 男 一 些 应 用 则 又 更 不 


适合 。 





Scrapy 不 是 Apache Solr、Elasticsearch 或 Lucene， 换 句 话 说 ， 就 是 它 
与 搜索 引擎 无 天 。Scrapy 并 不 打算 为 你 提供 包含 “Einstein” 或 其 他 单词 的 
文档 的 参考 。 你 可 以 使 用 Scrapy 抽 取 数 据 ， 然 后 将 其 插入 到 Solr 或 
Elasticsearch 当 中 ， 我 们 会 在 第 9 章 的 开始 部 分 讲解 这 一 做 法 ， 不 过 这 仅 
仅 是 使 用 Scrapy 的 一 个 方法 ， 而 不 是 嵌入 在 Scrapy 内 的 功能 。 


最 后 ，Scrapy 不 是 类 似 MySQL、MongoDB 或 Redis 的 数据 库 。 它 既 
不 存储 数据 ， 也 不 索引 数据 。 它 只 用 于 抽取 数据 。 即 便 如 此 ， 你 可 能 会 
将 Scrapy 抽 取得 到 的 数据 插入 到 数据 库 当 中 ， 而 且 它 对 很 多 数据 库 也 都 
有 所 支持 ， 能 够 让 你 的 生活 更 加 轻松 。 然 而 Scrapy 终 究 不 是 一 个 数据 
库 ， 其 输出 也 可 以 很 容易 地 更 改 为 只 是 人 磁盘 中 的 文件 ， 甚 至 什么 都 不 输 
出 一 一 虽然 我 不 确定 这 有 什么 用 。 
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本 章 介 绍 了 Scrapy， 给 出 了 它 能 够 帮 你 做 什么 的 概述 ， 并 描述 了 我 
们 认为 的 使 用 本 书 的 正确 方式 。 本 章 还 提供 了 几 种 上 自动 化 数据 抓 取 的 方 
式 ， 通 过 帮 你 快速 开发 能 够 与 现 有 生态 系统 更 好 融合 的 高 质量 应 用 而 获 
益 。 下 一 章 将 介绍 HTML 和 XPath， 这 是 两 个 非常 重要 的 Web 语 言 ， 我 
们 在 每 个 Scrapy 项 目 中 都 将 用 到 它们 。 








入 和 


第 2 章 理解 HTML 和 XPath 





为 了 从 网 页 中 抽取 信息 ， 你 必须 对 其 结构 有 更 多 了 解 。 我 们 将 快速 
浏览 HTIML、HTML 的 树 状 表示 ， 以 及 在 网 页 上 选取 信息 的 一 种 方式 
XPath. 


2.1 _ HTML、DOM 树 表示 以 及 XPath 


证 我们 花费 一 些 时 间 来 了 解 从 用 户 在 浏览 器 中 输入 URL 《或 者 更 各 
见 的 是 ， 在 其 单 击 链接 或 书签 时 ) 到 屏幕 上 显示 出 页 面 的 过 程 。 从 本 书 
的 视角 来 看 ， 该 过 程 包 含 4 个 步 又， 如 图 2.1 所 示 。 





| AR; eum om 


FEL 
US ptis - 


p wm Examole Domai 
be — 80081 


etait Nw w 
d 34,0 404 — o 
hefty, ary T spat can 
dons Won m 
Vitr 4194 dip PN 
四 det dbp 


cA Me MM UN 


nt 





。 在 浏览 器 中 输入 URL。URL 的 第 一 部 分 (域名 ， 比 如 
gumtree.com) 用 于 在 网 络 上 找到 合适 的 服务 器 ， 而 URL 以 及 cookie 
等 其 他 数据 则 构成 了 一 个 请 求 ， 用 于 发 送 到 那 台 服 务 器 当中 。 

e 服务 端 回应 ， 向 浏览 器 发 送 一 个 HTML 页 面 。 需 要 注意 的 是 ， 服 务 


端 也 可 能 返回 其 他 格式 ， 比 如 XML 或 JSON， 不 过 目前 我 们 只 关注 
HTML. 
e 将 HIML 转 换 为 浏览 器 内 部 的 树 状 表示 形式 : 文档 对 象 模型 
(Document Object Model, DOM) . 
e 基于 一 些 布局 规则 演 染 内 部 表示 ， 达 到 你 在 屏幕 上 看 到 的 视觉 效 
Re 


下 面 来 看 看 这 些 步 又， 以 及 它们 所 需 的 文档 表示 。 这 将 有 助 于 定位 
你 想 要 抓 取 并 编写 程序 获取 的 文本 。 


2.1.1 URL 


对 于 我 们 而 言 ，URL 分 为 两 个 主要 部 分 。 第 一 个 部 分 通过 域名 系统 
(Domain Name System, DNS) 帮助 我 们 在 网 络 上 定位 合适 的 服务 
器 。 比 如 ， 当 在 浏览 占 中 发 送 https:// 
mail.google .com/mail/u/0/#inbox 时 ， 将 会 创建 一 个 对 mail.google.com 
的 DNS 请 求 ， 用 于 确定 合适 的 服务 器 IP 地 址 ， 如 173.194.71.83。 从 本 质 
上 来 看 ，https:// mail.google.com/mail/u/0/sinboxTKA Hi% 
Zjhttps://173.194.71.83/mail/ u/0/#inbox. 


URL [fj 48 Z& HB a RLF HILOS 3 EE Re A dE GS BE HEE 
— 一 个 文档 ， 或 是 需要 触发 茶 个 动作 的 东西 ， 比 如 同 服 务 器 发 送 
EF. 


2.1.2 HTML f 


ARA fm LURL, FERRO Re A. Aa Il —“SHTML Y 
Fi. YEE OCA CE, RAT MEH TextMate, 
Notepad、vVi 或 Emacs 打开 它 。 和 大 多 数 文本 文档 不 同 ，HITML 文 档 具 有 
由 万 维 网 联盟 指定 的 格式 。 访 规范 当然 已 经 超出 了 本 书 的 范畴 ， 不 过 还 
是 让 我 们 看 一 个 简单 的 HIML 页 面 。 当 访问 http://example.com 时 ， 可 
以 在 浏览 器 中 选择 View Page Source (查看 页 面 源 代码 ) 以 看 到 与 其 相 
关 的 HTML 文 件 。 在 不 同 的 浏览 器 中 ， 具 体 的 过 程 是 不 同 的 ;在 许多 系 
统 中 ， 可 以 通过 右键 单 击 找到 该 选项 ， 并 且 大 部 分 浏览 器 在 你 按 下 Ctrl 
+ UU 快捷 键 ( 或 Mac 系 统 中 的 Cmqd + U) 时 可 以 显示 源 代码 。 











在 一 些 页 面 中 ， 该 功能 可 能 无 法 使 用 。 此 时 ， 需 要 通过 单 击 Chrome 羔 
单 ， 然 后 选择 Tools | View Source 才 可 以 。 


下 面 是 http://example.com 目 前 的 HTML 源 代码 。 


<!doctype html» 
<html> 
<head> 
<title>Example Domain</title> 
<meta charset="utf-8" /> 
<meta http-equiv="Content-type" 
content="text/html; charset=utf-8" /> 
<meta name="viewport" content="width=device-width, 
initial-scale-1" /> 
<style type="text/css"> body { background-color: ... 
) }</style> 


<body> 
<div> 
<hi>Example Domain</h1> 
<p>This domain is established to be used for 
illustrative examples examples in documents. 
You may use this domain in examples without 
prior coordination or asking for permission.</p> 
<p><a href="http://www.iana.org/domains/example"> 
More information. ..</a></p> 
</div> 
</body> 
</html> 


我 将 这 个 HTML 文档 进行 了 格式 化 ， 使 其 更 具 可 读 性 ， 而 你 看 到 的 
情况 可 能 是 所 有 文本 在 同一 行 中 。 在 HTML 中 ， 空 格 和 换行 在 大 多 数 情 
况 下 是 无 关 紧 要 的 。 

尖 插 号 中 间 的 文本 (比如 <htm1l> 或 <zhead>) 被 称 为 标签 。<htm1> 是 
起 始 标签 ， 而 </htm1> 是 结束 标签 。 这 两 种 标签 的 唯一 区 别 是 /字符 。 这 
说 明 ， 标 签 是 成 对 出 现 的 。 虽 然 一 些 网 页 对 于 结束 标签 的 使 用 比较 粗心 











比如， 为 独立 的 段落 使 用 单一 的 <p> 标 签 ) ， 但 是 浏览 需 有 很 好 的 容 
ARE, FPA Se HEM Z RC </p> SE MZ CEB HR. 


<p> 和 </p> 标 签 中 的 所 有 东西 被 称 为 HTML 元 素 。 请 注意 ， 元 素 中 可 
能 还 包括 其 他 元 素 ， 比 如 示例 中 的 <div> 元 素 ， 或 是 包含 <a> 元 素 的 第 二 
上 


有 些 标 签 会 更 加 复杂 ， 比 如 <a 
href="http://www.iana.org/domainsvexample">。 含 有 UREL 的 href 部 分 
被 称 为 属性 。 


最 后 ， 许 多 元 素 还 包含 文本 ， 比 如 <h1> 元 素 中 的 "Example 


Domain". 


对 于 我 们 来 说 ， 好 消息 是 这 些 标签 并 不 都 是 重要 的 。 唯 一 可 见 的 东 
西 是 body 元 素 中 的 元 素 ， 即 <body> 和 </body> 标 签 之 间 的 元 素 。<head> 部 
分 对 于 指明 诸如 字符 编码 的 元 信息 来 说 非常 重要 ， 不 过 Scrapy 能 够 处 理 
大 部 分 此 类 问题 ， 所 以 很 多 情况 下 不 需要 关注 HTML 页 面 的 这 个 部 分 。 


2.1.3” 树 表示 法 


每 个 浏览 器 都 有 其 自 映 复杂 的 内 部 数据 结构 ， 和 凭借 它 来 演 染 网 页 。 
SE msc is 语言 无 关 性 等 特点 ， 并 且 被 大 多 数 浏览 器 所 
MT o 


想 要 在 Chrome 中 查看 网 页 的 树 表 示 法 ， 可 以 右键 单 击 你 感 兴趣 的 
元 素 ， 然 后 选择 Inspect Element。 如 果 该 功能 被 禁用 ， 你 仍然 可 以 通过 
单 击 Chrome 菜 单 并 选择 Tools | Developer Tools 来 访问 它 ， 如 图 2.2 所 
人 No 
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图 2.2 


此 时 ， 你 可 以 看 到 一 些 看 起 来 和 HTML 表 示 非 常 相似 但 又 不 完全 相 
同 的 东西 。 它 束 是 HTML 代 码 的 树 表 示 法 。 如 果 不 管 原始 HTML 文 档 是 
如 何 使 用 空格 和 换行 符 的 话 ， 它 看 起 来 几乎 就 是 一 样 的 。 你 可 以 单 击 每 
个 元 素 ， 检 查 或 调整 属性 等 ， 同 时 可 以 在 屏幕 上 观察 这 些 变 动 有 何 影 
啊 。 比 如 ， 当 你 双击 茶 个 文本 ， 修 改 它 ， 并 按 下 回 车 键 时 ， 屏 右上 的 文 
本 将 会 更 新 为 这 个 新 值 。 在 右 侧 的 Properties 标 签 下 ， 可 以 看 到 这 个 树 
表示 法 的 属性 ， 并 且 在 确 部 可 以 看 到 一 个 类 似 面 包 导 的 结构 ， 它 显示 出 
了 当前 选择 的 元 系 在 HTML 元 系 层 次 结构 中 的 确切 位 置 ， 如 图 2.3 所 示 。 
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图 2.3 


需要 注意 的 一 个 重要 事情 是 ，HTML 只 是 文本 ， 而 树 表示 法 是 浏览 
器 内 存 里 的 对 象 ， 你 可 以 通过 编程 的 方式 租 看 并 操纵 它 ， 比 如 在 
Chrome 中 使 用 Developer Tools. 


2.1.4 ”你 会 在 屏幕 上 看 到 什么 


HTML 文 本 表示 和 树 表 示 并 不 包含 任何 像 我 们 通常 在 屏幕 上 看 到 的 
那 种 漂亮 视图 。 这 实际 上 是 HTML 成 功 的 原因 之 一 。 它 应 该 是 一 个 由 人 
类 阅读 的 文档 ， 并 且 可 以 指定 页 面 中 的 内 容 ， 而 不 是 用 于 在 屏幕 中 演 染 
的 方式 。 这 意味 着 选择 HIML 文 档 并 使 其 更 加 好 看 是 浏览 右 的 贡 任 ， 不 
管 它 是 诸如 Chrome 的 全 功能 浏览 器、 移动 设备 浏览 器 ， 甚 至 是 诸如 
Lynx HJ 28 SC ASD AA o 


也 就 是 说 ， 网 络 的 发 展 促使 Web 开 发 者 和 用 户 对 网 页 演 染 的 控制 产 
生 了 巨大 需求 。CSS 的 创建 就 是 为 了 对 HIML 元 系 如 何 浓 染 给 予 提 示 。 
不 过 ， 对 于 抓 取 而 言 ， 我 们 并 不 需要 任何 和 CSS 相 关 的 东西 。 


那么 ， 树 表示 法 是 如 何 映射 到 我 们 在 屏幕 上 所 看 到 的 东西 呢 ? 答案 
就 是 框 模型 。 正 如 DOM 树 元 素 可 以 包含 其 他 元 素 或 文本 一 样 ， 默 认 情 
况 下 ， 当 在 屏幕 上 演 染 时 ， 每 个 元 素 的 框 表示 同样 也 都 包含 其 租 入 元 素 
的 框 表 示 。 从 这 种 意义 上 说 ， 我 们 在 屏幕 上 所 看 到 的 是 原始 HIML 文 档 
的 二 维 表示 一 一 树 结构 也 以 一 种 隐藏 的 方式 作为 该 表示 的 一 部 分 。 比 
如 ， 在 图 2.4 中 ， 我 们 可 以 看 到 3 个 DOM 元 素 〈 一 个 <div> 和 两 个 先入 元 
素 <h1> 和 <p>) 是 如 何在 浏览 器 和 DOM 中 呈现 的 。 
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图 2.4 





2.2 ”使 用 XPath 选择 HTML 元 素 


如 打 你 具有 传统 软件 工程 背景 ， 并 且 不 了 解 XPath 相 关 知 识 的 话 ， 
可 能 会 担心 为 了 访问 HIML 文 档 中 的 信息 ， 你 将 需要 做 很 多 字符 串 匹 
配 、 在 文档 中 搜索 标签 、 处 理 特殊 情况 等 工作 ， 或 是 需要 设法 解析 整个 
树 表示 法 以 获取 你 想 抽取 的 东西 。 有 一 个 好 消息 是 这 些 工 作 都 不 是 必需 
的 。 你 可 以 通过 一 种 称 为 XPath 的 语言 选择 并 抽取 元 素 、 属 性 和 文本 ， 
这 种 语言 正 是 专门 为 此 而 设计 的 。 


为 了 在 Google Chrome 浏 览 器 中 使 用 XPath， 需 要 单 击 Developer 
Tools 的 Console 标 签 ， 并 使 用 $x 工具 函数 。 比 如 ， 你 可 以 泽 试 
在 http ://example. com/ 上 使 用 $x( '//h1')o 它 将 会 把 浏览 器 移动 
到 <h1> 元 素 上 ， 如 图 2.5 所 示 。 
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你 在 Chrome 的 Console 标 签 中 将 会 看 到 返回 的 是 一 个 包含 选 定 元 素 
的 JavaScript 数 组 。 如 果 将 鼠标 指针 移动 到 这 些 属性 上 ， 被 选取 的 元 素 将 
会 在 屏幕 上 高 亮 显 示 ， 这 样 就 会 十 分 方便 。 


2.2.1 有 用 的 XPath 表达 式 


文档 的 层次 结构 始 于 <htm1> 元 素 ， 可 以 使 用 元 素 名 和 和 斜 线 来 选择 文 
i d 比如 ， 下 面 是 几 种 表达 式 从 http://example.com 页 面 返 回 
J 结果 。 


$x('/html') 
[ <html>. ..</html> ] 
$x('/html/body') 
[ <body>...</body> ] 
$x('/html/body/div') 
<div>...</div> ] 
$x('/html/body/div/h1') 
[ <h1>Example Domainc/hi» ] 
$x('/html/body/div/p') 
<p>...</p>, «p»...«/p» ] 
$x('/html1/body/div/p[1]') 
[ <p>...</p> 
$x('/htm1/body/div/p[2]') 
[ <p>...</p> ] 








需要 注意 的 是 ， 因 为 在 这 个 特定 页 面 中 ，<div> 下 包含 两 个 <p> 元 
素 ， 因 此 html/body/div/p 会 返回 两 个 元 素 。 可 以 使 用 p[1] 和 p[2] 分 别 访 
闻 第 二 个 和 第 三 个 元 系 。 


另外 还 需要 注意 的 是 ， 从 抓 取 的 角度 来 说， 文档 标题 可 能 是 head 部 
分 中 我 们 唯一 感 兴 趣 的 元 素 ， 该 元 系 可 以 通过 下 面 的 表达 式 进 行 访问 。 


$x('//html/head/title') 
[ <title>Example Domain</title> ] 








对 于 大 型 文档 ， 可 能 需要 编写 一 个 非常 大 的 XPath 表 达 式 以 访问 指 
定 元 系 。 为 了 避免 这 一 问题 ， 可 以 使 用 // 语 法 ， 它 可 以 让 你 取得 系 一 特 
定 类 型 的 元 素 ， 而 无 需 考 虑 其 所 在 的 层次 结构 。 比 如 ，//p 将 会 选择 所 
有 的 p 元 素 ， 而 //a 则 会 选择 所 有 的 链接 。 


$x('//p') 
[ <p>...</p>, <p>...</p> ] 
$x('//a') 
«a href="http://www.iana.org/domains/example">More 
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information...</a> ] 





同样 ，//a 语 法 也 可 以 在 层次 结构 中 的 任何 地 方 使 用 。 比 如 ， 要 想 
找到 div 元 素 下 的 所 有 链接， 可 以 使 用 //div//a。 需 要 注意 的 是 ， 只 使 
用 单 斜 线 的 //div/a 将 会 得 到 一 个 空 数组 ， 这 是 因为 在 example.com 
中 ，'div' 元 素 的 直接 下 级 中 并 没有 任何 'a' 元 素 : 


$x('//div//a') 

[ <a hrefz'http://www.iana.org/domains/example"-More 
information...«/a» ] 
$x('//div/a') 

[ ] 











还 可 以 选择 属性 。http://example.com/ 中 的 唯一 属性 是 链接 中 的 
href， 可 以 使 用 符号 @ 来 访问 该 属性 ， 如 下 面 的 代码 所 示 。 


$x('//a/@href ' ) 
[ hrefz"http://www.iana.org/domains/example" ] 
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实际 上 ， 在 Chrome 的 最 新 版 本 中 ，@href 不 再 返回 URL， 而 是 返回 一 个 
空 字 符 串 。 不 过 不 用 担心 ， 你 的 XPath 表 达 式 仍然 是 正确 的 。 

















还 可 以 通过 使 用 text() 函 数 ， 只 选取 文本 。 


$x('//a/text()') 
[ "More information..." ] 


可 以 使 用 * 符 号 来 选择 指定 层级 的 所 有 元 素 。 比 如 : 


$x('//div/*') 
[ <h1>Example Domain</hi>, <p>...</p>, <p>...</p> ] 


你 将 会 发 现 选 择 包含 指定 属性 〈 比 如 6@class) 或 是 属性 为 特定 值 的 
元 素 非 常 有 用 。 可 以 使 用 更 高 级 的 谓词 来 选取 元 素 ， 而 不 再 是 前 面 例子 
中 使 用 过 的 p[1] 和 p[2]。 比 如 ，//a[@href] 可 以 用 来 选择 包含 href 属 性 


的 链接 ， 而 //a[@href="http://www.iana.org/domains/example"] 则 是 选 


择 nref 属 性 为 特定 值 的 链接 。 


更 加 有 用 的 是 ， 它 还 拥有 找到 href 属 性 中 以 一 个 特定 子 字符 串 起 始 
或 包含 的 能 力 。 下 面 是 几 个 例子 。 


$x('//a[Qhref]' ) 

[ «a href="http://www.iana.org/domains/example">More information...«/a» | 
$x('//a[Qhrefz"http://www.iana.org/domains/example"]') 

[ «a hrefz"http://www.iana.org/domains/example"2More information...«/a» | 
$x('//a[contains(Qhref, "iana")]') 

[ <a href="http://www.iana.org/domains/example">More information...«/a» ] 
$x('//a[starts-with(Qhref, "http://www.")]') 

[ <a href="http://www.iana.org/domains/example">More information...</a>] 
$x('//a[not(contains(@href, "abc"))]') 

[ <a href="http://www.iana.org/domains/example">More information...</a>] 





XPath 有 很 多 像 not()、contains() 和 starts-with() 这 样 的 函数 ， 你 
可 以 在 在 线 文 档 
(http: //www.w3schools.com/xsl/xsl functions.asp) 中 找到 它们 ， 不 
过 即使 不 使 用 这 些 函 数 ， 你 也 可 以 走 得 很 远 。 

现在 ， 我 还 要 再 多 说 一 点 ， 大 家 可 以 在 Scrapy 命 令 行 中 使 用 同样 的 
XPath RAH 要 打开 一 个 页 面 并 访问 Scrapy 命 令 行 ， 只 需要 输入 如 下 
ag: 


scrapy shell http: //example.com 





在 命令 行 中 ， 可 以 访问 很 多 在 编写 爬虫 代码 时 经 常 需 要 用 到 的 变量 
(参见 下 一 章 ) 。 这 其 中 最 重要 的 就 是 响应 ， 对 于 HTML 文 档 来 说 就 
是 HtmlResponse 类 ， 该 类 可 以 让 你 通过 xpath() 方 法 模拟 Chrome 中 的 
$x。 下 面 是 一 些 示 例 。 


response.xpath('/html').extract() 
[u'<html><head><title>...</body></html1>' ] 
response. xpath('/html/body/div/hi' ).extract() 





[u'<h1>Example Domain</h1>' ] 
response. xpath('/html/body/div/p').extract() 
[u'<p>This domain ... permission.</p>', u'<p><a href="http://www. 
iana.org/domains/example">More information. ..</a></p>'] 
response. xpath('//html/head/title').extract() 
[u'<title>Example Domain</title>' ] 
response. xpath('//a').extract() 
[u'«a href="http://www. iana.org/domains/example">More 
information. ..</a>'] 
response. xpath('//a/@href').extract() 
[u'http://www.iana.org/domains/example'] 
response. xpath(' ato ).extract() 
[u'More information. 
response. xpath(' //a[starts-with(ühref, "http://www.")]').extract() 
[u'«a hrefz'"http://www.iana.org/domains/example"-More 
information...«/a»'] 





这 就 意味 着 ， 你 可 以 使 用 Chrome 开 有 XPath 表达 式 ， 然 后 在 Scrapy 
疏 虫 中 使 用 它们 ， 正 如 我 们 在 下 一 节 中 将 要 看 到 的 那样 。 


2.2.2 ”使 用 Chrome 获 取 XPath 表 达 式 


Chrome 通 过 回 我 们 提供 一 些 基本 的 XPath 表达 式 ， 从 而 对 开发 者 更 
加 友好 。 从 前 文 提 到 的 检查 元 素 开 始 : 右键 单 击 想 要 选取 的 元 素 ， 然 后 
选择 Inspect Element。 访 操作 将 会 打开 Developer Tools， 并 且 在 树 表 示 
法 中 高 亮 显示 这 个 HIML 元 素 。 现 在 右键 单 击 这 里 ， B s m 
XPath， 此 时 XPath 表达 式 将 会 被 复制 到 勇 贴 板 中 。 上 述 过 程 如 图 2.6 所 
示 。 
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你 可 以 和 之 前 一 样 ， 在 命令 行 中 测试 该 表达 式 。 
$x('/html/body/div/p[2]/a' ) 


[ <a href="http://www.iana.org/domains/example">More 
information. ..</a>] 





2.2.3 ”常见 任务 示例 


有 一 些 XPath 表 达 式 ， 你 将 会 经 常 遇 到 。 让 我 们 看 一 些 目前 在 维基 
百科 页 面 上 的 例子 。 维 基 百 科 拥 有 一 僚 非 常 稳定 的 格式 ， 所 以 我 认为 它 
们 不 会 很 快 发 生 改变 ， 不 过 改变 终究 还 是 会 发 生 的 。 我 们 把 如 下 这 些 表 
达 式 作为 说 明 性 示例 。 








e. 获取 id 为 "firstHeadingn" 的 hi 标签 下 span 中 的 text。 


//h1i[@id="firstHeading"]/span/text() 


e 获取 id 为 "toc" 的 div 标 签 内 的 无 序列 表 Cul) 中 所 有 链接 URL。 


//div[@id="toc"]/ul//a/@href 


获取 class 属 性 包含 "Ltr" 以 及 class 属 性 包含 "skin-vector" 的 任意 
元 素 内 所 有 标题 元 素 Ch1) 中 的 文本 。 这 两 个 字符 串 可 能 在 同一 
个 class 中 ， 也 可 能 在 不 同 的 class 中 。 


//*[contains(@class,"ltr") and contains(@class, "skin-vector")]//h1//text() 





实际 上 ， 你 将 会 经 常 在 XPath 表 达 式 中 使 用 到 类 。 在 这 些 情 况 下 ， 
需要 记 住 由 于 一 些 被 称 为 CSS 的 样式 元 素 ， 你 会 经 党 看 到 HTML 元 素 在 
其 class 属 性 中 拥有 多 个 类 。 比 如 ， 在 一 个 导航 系统 中 ， 你 会 看 到 一 些 
div 标 签 的 class 属 性 是 "Link"， 而 另 一 些 是 "Link active"。 后 者 是 当前 
激活 的 链接 ， 因 此 会 表现 为 可 见 或 使 用 一 种 特殊 的 颜色 〈 通 过 CSS) 高 
党 表示 。 当 抓 取 时 ， 你 通常 会 对 包含 有 特定 类 的 元 素 感 兴趣 ， 具 体 来 
说 ， 就 是 前 面 例子 中 的 "link" 和 "link ”active"。 对 于 这 种 情况 ，XPath 
的 contains() 函 数 可 以 让 你 选择 包含 有 指定 类 的 所 有 元 素 。 





e. 选择 class 属 性 值 为 "infobox" 的 表格 中 第 一 张 图 片 的 URL。 


//table[@class="infobox"]//img[1]/@src 


。 选 择 class 必 性 以 "reflist" 开 头 的 div 标 签 中 所 有 链接 的 UREL。 


//div[starts-with(@class, "reflist")]//a/@href 


° i ie ee 的 div 元 素 中 所 有 链接 
JURL. 


//*[text()="References"]/../following-sibling::div//a 





请 注意 该 表达 式 非 常 脆 弱 并 且 很 容易 无 法 使 用 ， 因 为 它 对 文档 结构 
做 了 过 多 假设 。 


。 获取 页 面 中 每 张 图 片 的 URL。 


//img/@src 


2.2.4 预见 变化 
抓 取 时 经 常会 指 问 我 们 无 法 控制 的 服务 器 页 面 。 这 就 意味 着 如 果 它 
们 的 HTML 以 某 种 方式 发 生变 化 后 ， 就 会 使 XPath 表 达 式 失效 ， 我 们 将 
不 得 不 回 到 把 虫 当中 进行 修正 。 通 常情 况 下 ， 这 不 会 花费 很 长 时 间 ， 
为 这 些 变 化 一 般 都 很 小 。 但 是 ， 这 仍然 是 需要 避免 发 生 的 情况 。 一 些 简 
单 的 规则 可 以 帮助 我 们 减少 表达 式 失 效 的 可 能 性 。 
e 避免 使 用 数组 索引 (数值 ) 


Chrome 经 常会 给 你 的 表达 式 中 包含 大 量 和 常数 ， 例 如 : 


//* [0id-"myid"]/div/div/div[1]/div[2]/div/div[1]/div[1]/a/img 








这 种 方式 非常 脆弱 ， 因 为 如 果 像 广告 块 这 样 的 东西 在 层次 结构 中 的 
某 个 地 方 添加 了 一 个 额外 的 div 的 话 ， 这 些 数字 最 终 将 会 指向 不 同 的 元 
素 。 本 案例 的 解决 方法 是 尽 可 能 接近 目标 的 img 标 签 ， 找 到 一 个 可 以 使 
用 的 包含 id 或 者 class 属 性 的 元 素 ， 如 : 


//div[Qclass-"thumbnail"]/a/img 


。 类 并 没有 那么 好 用 
使 用 class 属 性 可 以 更 加 容易 地 精确 定位 元 素 ， 不 过 这 些 属 性 一 般 


是 用 于 通过 CSS 影 响 页 面 外 观 的 ， 因 此 可 能 会 由 于 网 站 布局 的 微小 变更 
而 产生 变化 。 例 如 下 面 的 class: 


//div[@class="thumbnail"]/a/img 








一 段 时 间 后 ， 可 能 会 变 成 : 


//div[@class="preview green"]/a/img 


e. 有 意义 的 面向 数据 的 类 要 比 具 体 的 或 者 面向 布局 的 类 更 好 


在 前 面 的 例子 中 ， 无 论 是 "thumbnail" 还 是 "green" 都 是 我 们 所 依赖 
类 名 的 坏 示 例 。 虽 然 "thumbnail" 比 "green" 确 实 更 好 一 些 ， 但 是 它们 都 
不 如 "departure-time"。 前 面 两 个 类 名 是 用 于 描述 布局 的 ， 
而 "departure-time" 更 加 有 意义 ， 与 div 标 签 中 的 内 容 相 关 。 因 此 ， 在 布 
局 发 生变 化 时 ， 后 者 更 可 能 保持 有 效 。 这 可 能 也 意味 着 该 站 的 开发 者 非 
常 清楚 使 用 有 意义 并 且 一 致 的 方式 标注 他 们 数据 的 好 人 处。 


。 ID 通 常 是 最 可 徘 的 
通常 情况 下 ，id 属 性 是 针对 一 个 目标 的 最 佳 选 择 ， 因 为 该 属性 既 有 


意义 又 与 数据 相关 。 部 分 原因 是 JavaScript 以 及 外 部 链接 锚 一 般 选 择 id 属 
性 以 引用 文档 中 的 特定 部 分 。 例 如 ， 下 面 的 XPath 表 达 式 非 第 健壮 。 


//*[@id="more_info"]//text() 








例外 情况 是 以 编程 方式 生成 的 包含 唯一 标记 的 ID。 这 种 情况 对 于 抓 
Mee Ice Mo Bu 


// [Gid-"order-F4982322"] 


尽管 使 用 了 id， 但 上 面 的 表达 陈 仍 然 是 一 个 非常 差 的 XPath 表达 
式 。 需 要 记 住 的 是 ， 尽 管 ID 应 该 是 唯一 的 ， 但 是 你 仍然 会 发 现 很 多 HTML 
文档 并 没有 满足 这 一 要 求 。 
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由 于 标记 的 质量 不 断 提 高 ， 现 在 可 以 更 加 容易 地 创建 健壮 的 XPath 
表达 式 ， 来 抽取 HTML 文 档 中 的 数据 。 在 本 章 中 ， 你 学 习 了 HTML 文 档 
和 XPath 表达 式 的 基础 知识 。 你 可 以 看 到 如 何 使 用 Google 的 Chrome 浏 览 
器 目 动 获 取 一 些 XPath 表 达 式 ， 并 将 其 作为 我 们 后 续 优 化 的 起 点 。 你 同 
样 还 学 到 了 如 何 通 过 审查 HTML 文 档 ， 直 接 创 建 这 些 表达 式 ， 以 及 辨别 
XPath 表达 式 是 否 健壮 。 现 在 ， 我 们 准备 好 运用 已 经 学 到 的 所 有 知识 ， 
在 第 3 章 中 使 用 Scrapy 编 写 我 们 的 前 几 个 爬虫 。 





这 和 古 非 党 重要 的 一 章 ， 你 可 能 会 多 次 阅读 本 章 ， 并 且 经 钟 会 在 寻找 
解决 方案 时 回 到 本 章 中 。 我 们 首先 会 介绍 如 何 安装 Scrapy， 然 后 伴随 知 
干 示例 及 不 同 的 实现 ， 转 向 开发 Scrapy 爬 虫 的 方法 论 。 在 开始 之 前 ， 我 
们 先 来 看 一 些 重要 的 概念 。 

由 于 我 们 会 快速 进入 有 趣 的 代码 部 分 ， 
能 力 非常 重要 。 当 你 看 到 如 下 内 容 时 : 


因此 使 用 本 书 中 代码 片段 的 


$ echo hello world 
hello world 


表示 你 在 终端 输入 了 echo hello word (忽略 美元 符号 ) ， 接 下 来 的 
一 行 或 几 行 就 是 你 在 终端 上 面 看 到 的 输出 。 











我 们 将 会 混用 “终端 "、“ 控 制 台 " 和 “命令 行 "这 几 个 术语 ， 它 们 在 本 书 的 
背景 下 没有 太 大 区 别 。 请 用 Google 搜 索 并 找 出 如 何 启动 你 所 使 用 的 平台 
(Windows, OS X 或 其 他 》 中 的 控制 台 。 你 也 可 以 在 附录 A 中 找到 详细 的 指 
gl. 


























当 你 看 到 如 下 内 容 时 : 


>>> print 'hi' 
hi 


表示 你 :在 Python 或 Scrapy 的 shell 提 示 符 中 得 入 了 print 'hi' (忽略 
VUE 同样 地 ， 接 下 来 的 一 行 或 几 行 就 是 你 在 终端 上 面 看 到 的 该 命令 
THY LL] o 


在 本 书 中 ， 你 还 需要 编辑 文件 。 你 所 使 用 的 工具 很 大 程度 上 依赖 于 
你 的 环境 。 如 果 你 使 用 Vagrant〔 强 烈 推 荐 ) ， 可 以 使 用 电脑 或 笔记 本 
中 请 如 Notepad、 Notepad++、 Sublime Text、TextMate、Eclipse 或 
PyCharm 等 编辑 器 。 如 果 你 有 更 多 的 Linux 或 UNIX 使 用 经 验 ， 也 可 能 更 
喜欢 直接 使 用 Vim 或 Emacs 在 控制 台中 编辑 文件 。 这 两 种 编辑 器 都 很 强 
大 ， 不 过 需要 一 定 的 学 习 曲 线 。 如 果 你 是 一 个 初学 者 ， 并 且 不 得 不 在 控 
制 台 中 编辑 某 些 东西 ， 那 么 也 可 以 尝试 对 初学 者 更 加 友好 的 nano 编 辑 











3.1 安装 Scrapy 


Scrapy 的 安装 相对 来 说 比较 简单 ， 不 过 它 会 完全 依赖 于 你 从 哪里 起 
步 。 为 了 能 够 文 持 尽 可 能 多 的 用 户 ， 本 书 中 运行 和 安装 Scrapy 以 及 所 有 
示例 的 “官方 "方式 是 通过 Vagrant， 该 软件 能 够 让 你 在 不 考虑 宿主 操作 系 
统 的 情况 下 ， 运 行 一 个 标准 的 Linux 系 统 ， 在 该 系统 中 我 们 已 经 安装 好 
所 有 需要 用 到 的 工具 。 我 们 将 会 在 接 下 来 的 几 小 节 中 给 出 Vagrant 的 使 
用 说 明 以 及 一 些 常用 操作 系统 中 的 指引 。 


3.1.1 MacOS 
为 了 更 加 方便 地 阅读 本 书 ， 请 按照 后 面 给 出 的 Vagrant 使 用 说 明 操 


作 。 如 果 你 想 直接 在 MacOS 系 统 中 安装 Scrapy， 其 实 也 很 简单 。 只 需要 
输入 下 面 的 命令 即 可 。 


$ easy_install scrapy 





然后 ， 一 切 都 会 为 你 准备 好 。 在 过 程 中 ， 可 能 会 要 求 你 填写 密码 或 
安装 Xcode， 如 图 3.1 所 示 。 这 些 都 没有 问题 ， 你 可 以 放心 地 接受 这 些 请 










| 1) 
有 The'ge command requires the commandline 
developer tools. Would you like to install the tools 


Choose Install to continue, Choose Get Xcode to install Xcode J 
and the command line developer tools from the App Store. 


| Xod ME 













3.1.2 Windows 


直接 在 Windows 系 统 中 安装 Scrapy 会 复杂 一 些 ， 坦 白 来 说 ， 会 有 一 
点 痛 苗 。 而 且 ， 安装 本 书 中 所 需 的 所 有 软件 也 需要 很 大 程度 的 勇气 和 决 
心 。 我 们 已 经 为 你 做 好 了 准备 。 Vagrant 和 Virtualbox 可 以 在 Windows 64 
位 平台 中 展 好 运行 。 直 接 前 往 本 章 后 续 的 相关 小 市 ， 你 可 以 很 快 将 其 安 
装 好 并 运行 起 来 。 如 果 你 必须 要 在 Windows 系 统 中 直接 安装 Scrapy， 请 
查阅 本 书 网 站 Chttp://scrapybook.com) 中 的 资源 。 











3.1.3 Linux 


和 前 面 提 及 的 两 个 操作 系统 一 样 ， 如 果 你 想 按 照 本 书 操作 ， 那 么 
Vagrant 就 是 最 为 推荐 的 方式 。 


由 于 在 很 多 场景 下 ， 你 需要 在 Linux 服 务 器 中 安装 Scrapy， 因 此 更 详 
尽 的 指引 TROBE, 


A | 
































确切 的 依赖 条 件 经 常会 发 生变 更 。 本 书 编写 时 ， 我 们 安装 的 Scrapy 版 本 
是 1.0.3， 下 面 的 内 容 是 针对 不 同 主流 系统 的 操作 指南 。 





1. Ubuntu 或 Debian Linux 


为 了 在 Ubuntu 〈 使 用 Ubuntu 14.04 Trust Tahr 64 位 版 本 测试 ) 或 其 
他 使 用 apt 的 发 布 版 本 中 安装 Scrapy， 需 要 执行 如 下 3 个 命令 。 


$ sudo apt-get update 





$ sudo apt-get install python-pip python-lxml python-crypto python- 
cssselect python-openssl python-w3lib python-twisted python-dev libxml2- 
dev libxslti-dev zlibig-dev libffi-dev libssl-dev 


$ sudo pip install scrapy 


上 述 过 程 需要 一 些 编译 工作 ， 而 且 可 能 会 被 不 时 打 断 ， 不 过 它 将 会 
为 你 安装 PyPI 源 上 最 新 版 本 的 Scrapy。 如 果 你 想 避 免 某 些 编译 工作 ， 并 
且 能 够 忍受 使 用 稍微 过 时 一 些 的 版 本 的 话 ， 可 以 通过 Google 搜 索 “install 
Scrapy Ubuntu packages”"， 并 跟随 Scrapy 官 方 文档 的 指引 进行 操作 。 


2. Red Hat 或 CentOS Linux 
在 Red Hat 或 其 他 使 用 yum 的 发 布 版 本 中 安装 Scrapy 相 对 来 说 比较 容 
易 。 你 只 需 按照 如 下 3 行 操 作 即 可 。 


sudo yum update 
sudo yum -y install libxslt-devel pyOpenSSL python-lxml python-devel gcc 
sudo easy install scrapy 


3.1.4. 最 新 源码 安装 


只 要 你 授 照 上 述 指引 操作 的 话 ， 束 已 经 安装 好 了 Scrapy 目 前 所 逢 的 
所 有 依赖 。 由 于 Scrapy 是 纯 Python 应 用 ， 因 此 如 果 你 想 修 改 其 源 代 码 或 
测试 最 新 功能 ， 可 以 很 容易 地 从 https://github.com/scrapy/scrapy 网 
站 中 克隆 其 最 新 版 本 。 在 你 的 系统 中 安装 Scrapy， 只 需 输 入 如 下 命令 。 

$ git clone https://github.com/scrapy/scrapy.git 


$ cd scrapy 
$ python setup.py install 


我 猜 如 果 你 属于 这 类 Scrapy 用 户 ， 也 就 不 需要 我 再 提 及 virtualenv 
Te 
3.1.5 升级 Scrapy 


Scrapy 经 常会 升级 。 你 会 发 现 上 自己 需要 在 很 短 时 间 内 完成 升级 ， 此 
时 可 以 使 用 pip、easy_install 或 aptitude 完 成 这 项 工作 。 


$ sudo pip install --upgrade Scrapy 








或 


$ sudo easy_install --upgrade scrapy 





如 果 想 降级 或 选择 特定 版 本 ， 可 以 通过 指定 版 本 号 来 完成 ， 比 如 : 


$ sudo pip install Scrapy==1.0.0 


at 


$ sudo easy_install scrapy==1.0.0 


3.1.6 Vagrant: 本 书 中 运行 示例 的 官方 方式 


本 书 中 会 有 很 多 复杂 但 义 有 趣 的 例子 ， 其 中 一 些 例子 会 用 到 很 多 服 
务 。 无 论 是 处 于 初学 还 是 进 阶 阶段 ， 都 可 以 运行 本 书 中 的 这 些 示 例 ， 这 
是 因为 被 称 为 Vagrant 的 程序 可 以 让 我 们 仅仅 使 用 简单 的 命令 就 能 准备 
好 这 个 复杂 的 系统 。 本 书 中 使 用 的 系统 如 图 3.2 所 示 。 
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图 3.2 本 书 使 用 的 系统 


在 Vagrant 的 术语 中 ， 你 的 电脑 或 笔记 本 被 称 为 “宿主 ”机 。Vagrant 
使 用 宿主 机 运行 Docker 提 供 者 VM (虚拟 机 〉 。 这 些 技术 可 以 让 我 们 拥 
有 一 个 隔离 的 系统 ， 在 其 中 拥有 其 私有 网 络 ， 可 以 忽略 宿主 机 的 软 硬 
件 ， 运 行 本 书 中 的 示例 。 

大 部 分 章节 只 使 用 了 两 个 服务 : "dev" 机 器 和 "web" 机 器 。 我 们 登录 
到 jdev 机 右 中 运行 仆 虫 ， 抓 取 web 机 器 中 的 页 面 。 后面 的 一 些 章节 会 用 到 
更 多 的 服务 ， 包 括 数据 库 和 大 数据 处 理 引 擎 。 


请 按照 附录 A 的 说 明 ， 在 操作 系统 中 安装 Vagrant。 到 附录 A 的 结尾 
时 ， 你 应 当 已 经 在 操作 系统 中 安装 好 git 和 vagrant 了 。 打 开 控 制 台 / 终 
端 /命令 提示 符 ， 现 在 可 以 按照 如 下 操作 获取 本 书 的 代码 了 。 


$ git clone https://github.com/scalingexcellence/scrapybook.git 
$ cd scrapybook 


然后 可 以 通过 输入 如 下 命令 打开 Vagrant 系 统 。 


$ vagrant up --no-parallel 


在 首次 运行 时 将 会 花费 一 些 时 间 ， 这 取决 于 你 的 网 络 连 接 状 况 。 在 
这 之 后 ，'vagrant up' 操 作 将 会 瞬间 完成 。 当 系统 运行 起 来 之 后 ， 束 可 以 
使 用 如 下 命令 登录 dev 虚 拟 机 。 


$ vagrant ssh 


现在 ， 你 已 经 处 于 开发 控制 台 当 中 ， 在 这 里 可 以 按照 本 书 的 其 他 说 
明 操 作 。 代 码 已 经 从 你 的 宿主 机 复制 到 dev 机 器 当中 ， 可 以 在 book 目 录 
下 找到 这 些 代码 。 

$ ed book 


ch03 ch04 ch05 ch07 ch08 ch09 ch10 ch11 ... 





打开 几 个 控制 台 并 执行 vagrant ssh， 可 以 获得 多 个 可 供 操 作 的 dev 


终端 。 可 以 使 用 vagrant halt 关 闭 系 统 ， 使 用 vagrant status 查 看 系统 
状态 。 请 注意 ，vagrant ”halt 不 会 天 挥 VM。 如 果 出 现 问 题 ， 则 需要 打 
开 VirtualBox 然 后 手动 关闭 它 ， 或 者 使 用 vagrant global-status 找 到 其 
id (名 为 "docker-provider") ， 然 后 使 用 vagrant halt <ID> 停 挥 它 。 即 使 
你 处 于 离线 状态 ， 大 部 分 示例 仍然 能 够 运行 ， 这 也 是 使 用 Vagrant 的 一 
个 很 好 的 副作用 。 


现在 ， 我 们 已 经 正确 地 创建 好 了 系统 ， 下 面 就 该 准备 学 习 Scrapy 
d 


3.2 UR?IM ”基本 抓 取 流 程 


每 个 网 站 都 是 不 同 的 ， 如 果 发 现 某 些 不 常见 的 情况 ， 则 需要 一 些 额 
外 的 学 习 ， 或 是 在 Scrapy 的 邮件 列表 中 咨询 一 些 问 题 。 不 过 ， 为 了 知道 
在 哪里 和 如 何 搜索 ， 重 要 的 是 对 其 流程 有 一 个 整体 的 了 解 ， 并 且 清 楚 相 
关 的 术语 。 和 Scrapy 打 交道 时 ， 你 所 遵循 的 最 通用 的 流程 是 UR2IM 流 
程 ， 如 图 3.3 所 示 。 


3.2.1 


URL 


ARS 


+ URL 
v jk (Request) 


e fj (Response) 
* [tem 


* 更 多 的 URL (More URL) 





一 切 始 于 URL。 你 需要 从 准备 抓 取 的 网 站 中 选择 几 个 示例 URL。 我 


将 使 用 Gumtree 分 类 广告 网 站 (https://www.gumtree.com) 作为 示例 进 
行 演示 。 


比如 ， 通 过 访问 Gumtree 上 的 伦敦 房产 主页 (链接 
为 http://www.gumtree.com/flats-houses/london) ， 你 能 够 找到 一 些 房 
产 的 示例 URL。 可 以 通过 右键 单 击 分 类 列表 ， 选择 Copy Link 
Address (复制 链接 地 址 〉 或 你 浏览 器 中 同样 的 功能 ， 来 复制 这 些 链 
接 。 比 如 ， 其 中 一 个 可 能 类 似 于 https://www.gumtree.com/p/studios- 
bedsits-rent/split-level。 虽 然 可 以 在 真实 网 站 中 使 用 这 些 URL 来 操 
作 ， 但 不 圭 的 是 ， 经 过 一 段 时 间 后 ， 真实 的 Gumtree 网 站 可 能 会 发 生变 
化 ， 造 成 XPath 表 达 式 无 法 正常 工作 。 此 外 ， 除 非 设置 一 个 用 户 代 理 
头 ， 否 则 Gumtree 不 会 回应 你 的 请 求 。 稍 后 我 们 会 对 此 进行 更 进一步 的 
讲解 ， 个 过 天 现在 而 训 ， 如 果 想 加 载 它 们 的 某 个 页 面 ， 可 以 在 scrapy 
shell 中 使 用 如 下 命令 。 


scrapy shell -s USER_AGENT="Mozilla/5.0" <your url here e.g. http://www. 
gumtree.com/p/studios-bedsits-rent/...> 


如 采 想 要 在 使 用 scrapy shell 时 调试 问题 ， 可 以 使 用 - -pdb 参数 月 用 交 
互 式 调试 ， 以 避免 友 生 异常 。 例 如 


scrapy shell --pdb https://gumtree.com 


A | 


























scrapy shell 是 一 个 非常 有 用 的 工具 ， 能 够 帮助 我 们 使 用 Scrapy 开 发 。 


很 显然 ， 我 们 并 不 鼓励 你 在 学 习 本 书 内 容 时 访问 Gumtree 的 网 站 ， 
我 们 也 不 希望 本 书 的 示例 在 不 久之 后 就 无 法 使 用 。 此 外 ， 我 们 还 希望 即 
使 无 法 连接 互联 网 ， 你 仍然 能 够 开发 和 使 用 我 们 的 示例 。 这 就 是 为 什么 
你 的 Vagrant 开 发 环境 中 包含 一 个 提供 了 类 似 于 Gumtree 网 站 页 面 的 Web 
服务 器 的 原因 。 虽 然 它 们 可 能 不 如 真实 网 站 那么 漂亮 ， 但 是 从 让 虫 角度 
来 说 ， 它 们 其 实 是 一 样 的 。 即 便 如 此 ， 我 们 在 本 章 中 的 所 有 截图 还 是 来 
自 真实 的 Gumtree 网 站 。 在 你 Vagrant 的 dev 机 器 中 ， 可 以 通过 
http://web:9312/ 访 问 该 Web 服 务 器 ， 而 在 你 的 浏览 器 中 ， 可 以 通过 
http://localhost:9312/ 来 访问 。 


在 scrapy shell 中 打开 服务 器 中 的 一 个 网 页 ， 并 且 在 dev 机 器 上 输入 如 
下 内 容 进 行 操作 。 


$ scrapy shell http: //web:9312/properties/property_000000.htm1 





[s] Available Scrapy objects: 

[s] crawler <scrapy.crawler.Crawler object at 0x2d4fb10> 
[s] item {} 

[s] request «GET http:// web:9312/.../property_000000.htm1> 
[s] response — «200 http://web:9312/.../property_000000.htm1> 
[s] settings <scrapy.settings.Settings object at 0x2d4fa90> 
[s] spider <DefaultSpider 'default' at 0x3ea0bd0> 

[s] Useful shortcuts: 


[s]  shelp() Shell help (print this help) 

[s]  fetch(req or ur1) Fetch request (or URL) and update local... 
[s] view(response) View response in a browser 

>>> 


我 们 得 到 了 一 些 输出 ， 现 在 可 以 在 Python 提示 符 下 ， 用 它 来 调试 刚 
才 加 载 的 页 面 〈 一 般 情况 下 ， 可 以 使 用 Ctrl + DEH) 。 


3.2.2 ”请 求 和 啊 应 


大 家 可 能 注意 到 在 前 面 的 日 志 中 ，scrapy shell 本 身 已 经 为 我 们 做 了 
一 些 工作 。 我 们 给 出 了 一 个 URL， 然 后 它 执行 了 一 个 默认 的 6ET 请 求 ， 
并 得 到 了 一 个 状态 码 为 209 的 响应。 这 就 意味 着 ， 页 面 信息 已 经 加 载 完 
毕 ， 可 以 使 用 了 。 如 果 想 要 打印 response.body 的 前 50 个 字符 ， 可 以 按 
如 下 命令 操作 。 


>>> response.body[:50] 
"<!DOCTYPE html>\n<html>\n<head>\n<meta charset="UTF-8"' 











[:56] 古 什么 ? 这 是 Python 从 文本 变量 (本 例 为 response.body) 中 抽取 
省 面 50 个 字符 《如果 存在 》 的 方式 。 如 果 你 之 前 并 不 了 解 python， 请 保持 
冷静 ， 继 续 同 前 。 很 快 ， 你 束 会 熟悉 并 享受 所 有 这 些 语法 技巧 了 。 












































这 是 Gumtree 上 指定 页 面 的 HTML 内 容 。 请 求 和 响应 部 分 不 会 给 我 
们 帝 来 太 多 麻烦 。 不 过 ， 在 很 多 情况 下 ， 你 需要 做 一 些 工作 才能 保证 其 
正确 。 第 5 草 中 讲 到 这 些 内 容 。 就 目前 来 说 ， 我 们 尽量 保持 简单 ， 直 接 
进入 下 一 部 分 一 —1tem. 











3.2.3 Item 


下 一 步 是 尝试 从 响应 中 将 数据 抽取 到 Item 的 字段 中 。 因 为 该 页 面 的 
格式 是 HTML， 因 此 可 以 使 用 XPath 表达 式 进 行 操作 。 首 先 ， 让 我 们 看 
一 下 这 个 页 面 ， 如 图 3.4 所 示 。 
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图 3.4 页 面 、 感 兴趣 的 字段 及 其 HTML 代码 


在 图 3.4 中 有 大 量 的 信息 ， 但 其 中 大 部 分 都 是 布局 : logo、 搜 索 框 、 
按钮 等 。 虽 然 这 些 信息 都 很 有 用 ， 但 是 爬虫 并 不 会 对 其 产生 兴趣 。 我 们 
可 能 感 兴趣 的 字段 ， 比 如 说 包括 房 源 的 标题 、 位 置 或 代理 商 的 电话 号 
码 ， 它 们 都 具有 对 应 的 HTML 元素， 我 们 需要 定位 到 这 些 元 素 ， 然 后 使 
— 中 所 描述 的 流程 抽取 数据 。 那 么 ， 先 从 标题 开始 吧 (如 图 3.5 
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图 3.5 ”抽取 标题 


右键 单 击 页 面 上 的 标题 ， 并 选择 Inspect Element. ix fn] WA F 
相应 的 HTML 源 代码 了 。 现 在 ， 党 试 通过 右键 单 击 并 选择 Copy XPath, 
抽取 标题 的 XPath 表达 式 。 你 会 发 现 Chrome 浏 览 器 给 我 们 的 XPath 表达 
式 很 精确 ， 但 又 十 分 复杂 ， 因 此 该 表达 式 是 非常 脆弱 的 。 我 们 将 对 其 进 
行 一 些 简 化 ， 只 使 用 最 后 的 一 部 分 ， 通 过 使 用 表达 式 //h1， 选 择 在 页 面 
中 可 以 看 到 的 任何 Hi 元 素 。 尺 管 这 种 方式 有 些 误导 ， 因 为 我 们 并 不 是 真 
的 需要 页 面 中 的 每 一 个 H1， 不 过 实际 上 这 里 只 有 标题 使 用 了 H1; 而 作为 
EE 每 个 页 面 应 当 只 有 一 个 HL 元素， 并 且 大 部 分 网 站 确实 











SEO 是 Search Engine Optimization 〈 搜 索引 擎 优化 ) 的 缩写 ， 即 通过 优 
化 网 站 代码 、 内 容 和 出 入 站 链接 的 流程 ， 实 现 提供 给 搜索 引擎 的 最 佳 方式 。 















































我 们 来 检查 下 该 XPath 表达 式 能 否 在 scrapy shell 中 民 好 运行 。 


>>> response.xpath('//h1/text()').extract() 
[u'set unique family well'] 


非常 好 ， 完 美工 作 。 你 应 该 已 经 注意 到 我 在 //hi 表 达 式 的 结尾 处 添 
加 了 /text()。 如 果 想 要 只 抽取 Hi 元 素 所 包含 的 文本 内 容 ， 而 不 是 Hi 元 
素 自 身 的 话 ， 就 需要 使 用 到 它 。 我 们 通常 都 会 使 用 /text() 来 获得 文本 
字段 。 如 果 和 忽略 它 ， 束 会 得 到 整个 元 素 的 文本 ， 包 括 并 不 需要 的 标记 。 


>>> response.xpath('//h1').extract() 
[u'<h1 itemprop="name" class="space-mbs">set unique family well</h1>'] 





此 时 ,我们 残 得 到 了 抽取 本 页 中 第 一 个 感 兴趣 的 属性 标题 〉 的 代 
码 ， 不 过 如 果 你 观察 得 更 仔细 的 话 ， 就 会 发 现 还 有 一 种 更 好 更 简单 的 方 
法 也 可 以 做 到 。 


Gumtree 通 过 微 数据 标记 注解 它们 的 HTML。 比 如 ， 我 们 可 以 看 
Sij, 在 其 头 部 有 一 个 itemprop="name" 的 属性 ， 如 图 3.6 所 示 。 非常 好 ， 
这 样 我 们 就 可 以 使 用 一 个 更 简单 的 XPath 表达 式 ， 而 不 再 包含 任何 可 视 
化 元 各 I > 此 时 得 到 的 表达 式 为 //*[@itemprop="name"] [1]/text(). 你 
可 能 会 奇怪 为 什么 我 们 选择 了 包含 itemprop="name" 的 第 一 个 元 素 。 





Yd DU kA 


图 3.6” Gumtree 拥有 微 数 据 标记 








TAS! 你 是 说 第 一 个 ?如 果 你 是 一 个 经 验 丰 富 的 程序 员 ， 可 能 已 经 
将 array[1] 作 为 数组 的 第 二 个 元 素 了 。 令 人 惊讶 的 是 ，XPath 是 从 1 开始 的 ， 
因此 array[1] 是 数组 的 第 一 | 元 素 。 











我 们 这 么 做 ， 不 只 是 因为 itemprop="name" 在 许多 不 同 的 上 下 文中 作 
为 微 数据 来 使 用 ， 还 因为 Gumtree 在 其 页 面 的 “你 可 能 还 喜欢 ..…....” 部 分 
为 其 他 属性 使 用 了 髓 套 的 信息 ， 以 这 种 方式 阻止 我 们 对 其 轻易 识别 。 尺 
管 如 此 ， 这 并 不 是 一 个 大 问题 。 我 们 只 需要 选择 第 一 个 ， 而 且 我 们 也 将 
使 用 同样 的 方式 处 理 其 他 字段 。 


让 我 们 来 看 一 下 价格 。 价 格 被 包含 在 如 下 的 HTML 结 构 当 中 。 


«strong class="ad-price txt-xlarge txt-emphasis" itemprop="price"> 
£334. 39pw</strong> 


我 们 又 一 次 看 到 了 itemprop="name" 这 种 形式 ， 太 棒 了 。 此 时 ， 
XPath 表达 式 将 会 是 //*[@itemprop="price"][1]/text()。 我 们 来 试 一 下 
吧 。 


>>> response. xpath('//*[@itemprop="price"][1]/text()').extract() 
[u'\xa3334.39pw' ] 


我 们 注意 到 ， 这 里 包含 一 些 Unicode 字 符 ( 英 镑 符号 £) ， 然 后 
是 334.39pw 的 价格 。 这 表明 数据 并 不 总 是 像 我 们 希望 的 那样 干净 ， 所 以 
可 能 还 需要 对 其 进行 一 些 清洗 的 工作 。 比 如 ， 在 本 例 中 ， 我 们 可 能 需要 
使 用 一 个 正则 表达 式 ， 以 便 只 选择 数字 和 点 号 。 可 以 使 用 re() 方 法 做 到 
这 一 要 求 ， 并 使 用 一 个 简单 的 正则 表达 式 蔡 代 extract()。 


>>> response. xpath('//*[@itemprop="price"][1]/text()').re('[.0-9]+') 
[u'334.39'] 





























这 里 使 用 了 一 个 response 对 象 ， 并 调用 了 它 的 xpath() 方 法 来 抽取 感 兴 
趣 的 值 。 不 过 ，xpath() 返 回 的 值 是 什么 呢 ? 如 果 在 一 个 简单 的 XPath 表达 式 
中 ， 不 使 用 .extract() 方 法 ， 将 会 得 到 如 下 的 显示 输出 : 
>>> response.xpath('.' 


) 
[<Selector xpath='.' data=u'<html>\n<head>\n<meta 
charse'>] 




























































































xpath() 返 回 了 网 页 内 容 预 加 载 的 selector 对 象 。 我 们 目前 只 使 用 了 
xpath() 方 法 ， 不 过 它 还 有 另 一 个 有 用 的 方法 : css()。xpath() 和 css() 都 会 返 
回 选 择 器 ， 只 有 当 调 用 extract() 或 re() 方 法 的 时 候 ， 才 会 得 到 真实 的 文本 数 
组 。 这 种 方式 非常 好 用 ， 因 为 这 样 就 可 以 将 xpath() 和 css() 操 作 串 联 起 来 
了 。 比 如 ， 可 以 使 用 css() 快 速 抽取 正确 的 HTML 元 素 。 






























































>>> response.css('.ad-price') 

[<Selector xpath=u"descendant -or-self::*[@class and 
contains(concat(' ', normalize- Space (ócioss], ' 

ad- -price ')]" data=u'<strong class="ad-price txt- -xlarge 























请 注意 ， 在 后 台中 css() 实 际 上 编译 了 一 个 xpath() 表 达 式 ， 不 过 我 们 输 
AIA REEXPa FI Sra 接 下 来 ， 串 联 一 个 xpath() 方 法 ， 只 抽取 
LrHHJ X Ze 


>>> response.css('.ad-price').xpath('text()') 
[<Selector xpath='text()' data=u'\xa3334.39pw'>] 

















最 后 ， 还 可 以 通过 re() 方 法 ， 串 联 上 正则 表达 式 ， 以 抽取 感 兴趣 的 值 。 


>>> response: css('.ad-price').xpath('text()').re('[.0- 


9]+ 
[u'334.39'] 


实际 上 ， 这 个 表达 式 与 原始 表达 式 相 比 ， 并 无 好 坏 之 差 。 请 把 它 当 作 
一 个 引起 思考 的 说 明 性 示例 。 在 本 书 中 ， 我 们 将 尽 可 能 保持 事物 简单 ， 同 时 
也 会 尽 可 能 多 地 使 用 虽然 有 些 老 旧 但 仍然 好 用 的 XPath。 关 键 点 是 记 
住 xpath() 和 css() 返 回 的 selector 对 象 是 可 以 被 串联 起 来 的 。 为 了 获取 真实 
值 ， 可 以 使 用 extract()， 也 可 以 使 用 re()。 在 Scrapy 的 每 个 新 版 本 当中 ， 都 
会 围绕 这 些 类 添加 新 的 令 人 兴奋 且 高 价值 的 功能 。 相关 的 Scrapy 文 档 部 分 
为 http://doc.scrapy.org/en/latest/topics/selectors.html。 该 文档 非常 优 
秀 ， 相 信 你 可 以 从 中 找到 抽取 数据 的 最 有 效 的 方式 。 




























































































描述 文本 的 抽取 也 是 相似 的 。 有 一 个 itemprop="description" 的 属 
性 用 于 标示 描述 。 其 XPath 表达 式 为 //* [Qi temprop-"description"] 
[1]/text()。 相 似 地 ， 住 址 部 分 使 用 itemtype="http://schema.org/ 
Place" 注 解 ;， 因此 ，xPath 表 达 式 为 //* 


[@itemtype="http://schema.org/Place"|[1]/text(). 


同 理 ， 图 片 使 用 了 itemprop="image"。 因 此 使 
用 //img[@itemprop="image"][1]/@src。 这 里 需要 注意 的 是 ， 我 们 没有 
使 用 /text()， 这 是 因为 我 们 并 不 需要 任何 文本 ， 而 是 只 需要 包含 图 片 
URL 的 src 属 性 。 


假设 这 些 是 我 们 想 要 抽取 的 全 部 信息 ， 我 们 可 以 将 其 总 结 到 表 3.1 





基本 字段 | XPath 表达 式 | 


//* [Oi temprop-z"name"][1]/text() 
示例 值 : [u'set unique family well'] 





price //*[@itemprop="price"][1]/text() 
示例 值 〈 使 用 -e0 ) : ru'334.391] 
description //* (@itemprop="description"][1]/text() 
示例 值 : [u'website court warehouse\r\npool...'] 
address //*([@itemtype="http://schema.org/Place"][1]/text() 
示例 值 : [u'Angel, London'] 
image_urls //*[Qitemprop-"image"][1]/Gsrc 
示例 值 : [u'../images/iot.jpg"] 


现在 ， 表 3.1 就 变 得 非常 重要 了 ， 因 为 如 果 我 们 有 许多 包含 相似 信 
奶 的 网 站 ， 则 很 可 能 需要 创建 很 多 类 似 的 谎 虫 ， 此 时 只 需 改变 前 面 的 这 
些 表 达 式 。 此 外 ， 如 果 想 要 抓 取 大 量 网 站 ， 也 可 以 使 用 这 样 一 张 表格 来 
拆 分 工作 量 。 


到 目前 为 止 ， 我 们 主要 在 使 用 HTML 和 XPath。 接 下 来 ， 我 们 将 开 
始 编写 一 些 真正 的 Python 代码 。 

















3.3 ”一 个 Scrapy 项 目 


到 目前 为 止 ， 我 们 只 是 在 通过 scrapy sheli MÆ, BEA 
己 经 拥有 了 用 于 开始 第 一 个 Scrapy 项 目的 所 有 必要 组 成 部 分 ， 那 么 让 我 
们 按 下 Ctrl + D 退出 scrapy shell 吧 。 需 要 注意 的 是 ， 你 现在 输入 的 所 有 
内 容 都 将 丢失 。 显 然 ， 我 们 并 不 希望 在 每 次 爬 取 某 些 东西 的 时 候 都 要 输 
入 代码 ， 因 此 一 定 要 说 记 scrapy shell 只 是 一 个 可 以 帮助 我 们 调试 页 面 、 
XPath 表达 式 和 Scrapy 对 象 的 工具 。 不 要 花费 大 量 时 间 在 这 里 编写 复杂 
代码 ， 因 为 一 旦 你 退出 ， 这 些 代 码 就 都 会 丢失 。 为 了 编写 真实 的 Scrapy 
代码 ， 我 们 将 使 用 项 目 。 下 面 创建 一 个 Scrapy 项 目 ， 并 将 其 命名 
为 "properties"， 因 为 我 们 正在 抓 取 的 数据 是 房产 。 


$ scrapy startproject properties 
$ cd properties 
$ tree 


一 properties 
I— _ init__.py 
[— items. py 
| | 一 pipelines.py 
| | 一 settings.py 
L— spiders 
| L— init__.py 
L— scrapy.cfg 


2 directories, 6 files 


M 








提醒 一 下 ， 你 可 以 从 GitHub 中 获得 本 书 的 全 部 源 代码 。 要 下 载 该 代 





码 ， 可 以 使 用 如 下 命令 : 


git clone https://github.com/scalingexcellence/ 
scrapyboo 





本 章 的 代码 在 che3 目 录 中 ， 其 中 该 示例 的 代码 在 che3/properties 目 录 


我 们 可 以 看 到 这 个 Scrapy 项 目的 目录 结构 。 命 令 scrapy 
startproject properties 创 建 了 一 个 以 项 目 名 命名 的 目录 ， 其 中 包含 3 
个 我 们 感 兴趣 的 文件 ， 分 别 是 items.py、pipelines.py 和 settings.py。 
这 里 还 有 一 个 名 为 spiders 的 子 目 录 ， 目 前 为 止 该 目录 是 空 的 。 
中 ， 我 们 将 主要 在 items .py 文件 和 spiders 目 录 中 工作 。 在 后 续 的 章 
里 ， 还 将 对 设置 、 管 道 和 scrapy.cfg 文 件 有 更 多 探索 。 


3.3.1 声明 item 


我 们 使 用 一 个 文件 编辑 器 打开 items .py 文件 。 现 在 该 文件 中 已 经 包 
含 了 一 些 模板 代码 ， 不 过 还 需要 针对 用 例 对 其 进行 修改 。 我 们 将 重 定 
erone ei Gerton 添加 表 3.2 中 总 结 出 来 的 字段 。 


我 们 还 会 添加 几 个 字段 ， 我 们 的 应 用 在 后 续 会 用 到 这 些 字段 (这 样 
oe 要 再 修改 这 个 文件 了 ) 。 本 书后 续 的 内 容 会 深入 解释 它们 。 

要 重点 注意 的 一 个 事情 是 ， 我 们 声明 一 个 字段 并 不 意味 着 我 们 将 在 每 
Pf AB FLEE EE, 或 是 全 部 使 用 它 。 你 可 以 随意 添加 任何 你 感觉 
合适 的 字段 ， 因 为 你 可 以 在 之 后 更 正 它 们 。 


表 3.2 



































elena ucc as oe a 可 以 在 后 续 的 章节 中 了 解 更 多 相关 
容 














我 们 还 会 添加 一 些 管 理 字段 〈 见 表 3.3) 。 这 些 字 段 不 是 特定 于 某 
个 应 用 程序 的 ， 而 是 我 个 人 感 兴趣 的 字段 ， 可 能 会 在 未 来 帮助 我 调试 疏 
虫 。 你 可 以 在 项 目 中 选择 其 中 的 一 些 字 段 ， 当 然 也 可 以 不 选择 。 如 果 你 
仔细 观察 这 些 字 段 ， 束 会 明白 它们 可 以 让 我 清楚 何 地 (server、url) 、 
何 时 〈date) 、 如 何 〈spider) 执行 的 抓 取 。 它 们 还 可 以 目 动 完 成 一 些 任 
务 ， 比 如 使 iem 失 效 、 规 划 新 的 抓 取 迭代 或 是 删除 来 自 有 问题 的 爬虫 的 
item。 如 果 你 还 不 能 理解 所 有 的 表达 式 ， 尤 其 是 server 的 表达 式 ， 也 不 
用 担心 。 当 我 们 进入 到 后 面 的 章节 时 ， 这 些 都 会 变 得 越 来 越 清楚 。 



































response.url 


示例 值 : 'http://web.../property 000000. html' 


self.settings.get('BOT NAME') 


示例 值 : 'properties' 


self.name 


示例 值 : "basic! 


socket. gethostname() 


示例 值 : 'scrapyserver1' 


datetime.datetime.now() 


示例 值 : datetime.datetime(2015, 6, 25...) 





给 出 字段 列表 之 后 ， 再 去 修改 并 目 定 义 scrapy startproject 为 我 们 
创建 的 PropertiesItem 类 ， 束 会 变 得 很 容易 。 在 文本 编辑 器 中 ， 修 
改 properties/items.py 文 件 ， 使 其 包含 如 下 内 容 : 


from scrapy.item import Item, Field 





class PropertiesItem(Item): 
# Primary fields 
title = Field() 
price = Field() 
description = Field() 


address = Field() 
image_urls = Field() 


# Calculated fields 
images = Field() 
location = Field() 


# Housekeeping fields 
url = Field() 

project = Field() 
spider = Field() 
server = Field() 

date = Field() 





由 于 这 实际 上 是 我 们 在 文件 中 编写 的 第 肿 一 个 Python 代码 ， 因 此 需要 
重点 指出 的 是 ，Python 使 用 缩 进 作为 其 语法 的 一 部 分 。 在 每 个 字段 的 起 
始 部 分 ， 会 有 精确 的 4 个 空 : 格 或 1 个 制 表 符 - 这 一 点 非常 重要 。 如 果 你 在 
其 中 一 行使 用 了 4 个 空格 ， 而 在 另 一 行使 用 了 3 个 空格 ， 就 会 出 现 语法 错 
误 。 如 果 你 在 其 中 一 行使 用 了 4 个 空格 ， 而 在 另 一 行使 用 了 制 表 符 ， 同 
样 也 会 产生 语法 错误 。 这 些 空 格 在 PropertiesItem 类 下 ， 将 字段 声明 组 
织 到 了 一 起 。 其 他 语言 一 般 使 用 大 括号 〈{f}) 或 特殊 的 关键 词 Cl 
begin-end) 来 组 织 代码 ， 而 Python 使 用 空格 。 


3.3.2 ”编写 爬虫 
我 们 已 经 在 半路 上 了 。 现 在 ， 我 们 需要 编写 爬虫 。 通 党 ， 我 们 会 为 


每 个 网 站 或 网 站 的 一 部 分 (如 果 网 站 非常 大 的 话 ) SIE ^em. [E 
代码 实现 了 完整 的 UR*IM 流 程 ， 我 们 很 快 就 可 以 看 到 。 


* | 




















HAR EAE, FEARS EFI H Ue? 项 目 是 由 Item 和 知 干 爬虫 组 























成 的 。 如 果 有 很 多 网 站 ， 并 且 需 要 从 中 抽取 相同 类 型 的 Ttem， 比 如 : 房产 ， 
那么 所 有 这 些 网 站 都 可 以 使 用 同一 个 项 目 ， 并 且 为 每 个 源 / 网 站 使 用 一 个 怜 




































































虫 。 反 之 ， 如 果 要 处 理 图 书 及 房产 这 两 种 不 同 的 源 时 ， 则 应 该 使 用 不 同 的 项 
目 。 


当然 ， 可 以 在 文本 编辑 嚣 中 从 头 开 始 创 建 一 个 仆 虫 ， 不 过 为 了 减少 
一 些 输 入 ， 更 好 的 方法 是 使 用 scrapy genspider 命 令 ， 如 下 所 示 。 


$ scrapy genspider basic web 
Created spider 'basic' using template 'basic' in module: 
properties.spiders.basic 


现在 ， 如 果 再 次 运行 tree 命 令 ， 就 会 注意 到 与 之 前 相 比 唯一 的 不 同 
是 在 properties/spiders 目 录 中 增加 了 一 个 新 文件 basic.py。 前 面 的 命 
令 所 做 的 工作 束 是 创建 了 一 个 名 为 "basic" 的 “默认 ” 谎 虫 ， 并 且 该 爬虫 
被 限制 为 只 能 爬 取 web 域 名 下 的 uRL。 如 果 需 要 的 话 ， 可 以 很 容易 地 移 除 
SR, AoA ARDC la. MRE AA basic" FREI. (KA 
以 通过 输入 scrapy genspider-1 来 查看 其 他 可 用 的 模板 ， 然 后 在 执 
fTscrapy genspider 时 ， 通 过 -t 参 数 ， 使 用 任意 其 他 模板 创建 仆 虫 。 在 
本 章 稍 后 的 部 分 ， 我 们 将 会 看 到 一 个 示例 。 


4! 





Scrapy 有 许多 子 目 录 。 我 们 一 般 假设 你 位 于 包含 scrapy.cfg 文 件 的 目录 
中 。 这 是 项 目的 “顶级 ”目录 。 现 在 ， 每 当 我 们 引用 Python“ 包 ”和 “模块 ?时 ， 它 
们 就 是 以 映射 目录 结构 的 方式 设置 的 。 比 如 ， 输 出 提 到 了 
properties.spiders.basic, 就 是 指 properties/spiders 目 录 中 的 basic.py 文 
件 。 我 们 早 前 定义 的 PropertiesItem 类 是 在 properties.items 模 块 中 ， 该 模块 
对 应 的 就 是 properties 目 录 中 的 items.py 文 件 。 












































如 果 查 看 properties/spiders/basic.py 文 件 ， 可 以 看 到 如 下 代码 。 


import scrapy 


class BasicSpider(scrapy.Spider): 
name = "basic" 
allowed_domains = ["web"] 
start_urls = ( 
"http://www.web/', 
) 


def parse(self, response): 
pass 


import 语 句 能 够 让 我 们 使 用 Scrapy 框 架 中 已 有 的 类 。 下 面 是 扩展 上 自 
scrapy.Spider 的 Basicspider 类 的 定义 。 通 过 “扩展 ”的 方式 ， 尽 管 我 们 
实际 上 没有 写 任何 代码 ， 但 是 该 类 已 经 “继承 ?了 Scrapy 框 架 中 的 Spider 
类 的 相当 一 部 分 功能 。 这 样 ， 就 可 以 只 额外 编写 少量 的 代码 行 ， 而 获得 
一 个 完整 运行 的 肘 虫 了 。 然 后 ， 我 们 可 以 看 到 一 些 爬 虫 的 参数 ， 比 如 它 
的 名 字 以 及 我 们 允许 其 仆 取 的 域名 。 最 后 是 空隙 数 parse( ) 的 定义 ， 该 
函数 包含 了 两 个 参数 ， 分 别 是 seLlf 和 response 对 象 。 通 过 使 用 self 引 
用 ， 我 们 藉 可 以 使 用 爬虫 中 感 兴趣 的 功能 了 。 而 另 一 个 对 象 response， 
我 们 应 该 很 熟悉 ， 它 就 是 我 们 在 scrapy shell 中 使 用 过 的 response 对 象 。 


4! 
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Xe MA —§_ fr ME. ANSEESHBIEBUE S IANS ES ts 
AA. BUTERA TOL FE 你 还 可 以 使 用 rmproperties/spiders/basic.py* 
删除 文件 ， 然 后 再 重新 生成 。 尽 情 发 挥 吧 ! 


























好 了 ， 让 我 们 开始 改造 吧 。 首 先 ， 要 使 用 在 scrapy shell 中 使 用 过 的 
那个 URL， 对 应 地 设置 到 start_ur1s 参 数 中 。 然 后 ， 将 使 用 讨 虫 预定 义 
的 方法 1og()， 输 出 在 基本 字段 表 中 总 结 的 所 有 内 容 。 修 改 
后 ，properties/spiders/basic.py 的 代码 如 下 所 示 。 








import scrapy 


class BasicSpider(scrapy.Spider): 
name = "basic" 
allowed_domains = ["web"] 
start_urls = ( 
"http: //web:9312/properties/property_000000.htm1', 
) 


def parse(self, response): 
self.log("title: %s" % response. xpath( 
'//* [@itemprop="name"][1]/text()').extract()) 
self.log("price: %s" % response. xpath( 
'//* [@itemprop="price"][1]/text()').re('[.0-9]+')) 
self.log("description: %s" % response. xpath( 
'//* [Qitempropz"description"][1]/text()').extract()) 
self.log("address: %s" % response. xpath( 
'//*[@itemtype="http://schema.org/' 
'Place"][1]/text()').extract()) 
self.log("image urls: 96s" 96 response.xpath( 
'//* [@itemprop="image"][1]/@src').extract()) 


我 将 会 不 时 地 修改 格式 ， 以 便 在 屏幕 和 纸张 中 都 能 很 好 地 显示 。 这 并 
` 意 味 着 它 有 什么 特殊 的 含义 。 











等 了 这 么 久 ， 终 于 到 了 运行 息 虫 的 时 候 了 。 我 们 可 以 使 用 命令 
scrapy craw1 以 及 礁 虫 的 名 称 来 运行 爬虫 。 


$ scrapy crawl basic 
INFO: Scrapy 1.0.3 started (bot: properties) 


INFO: Spider opened 

DEBUG: Crawled (200) «GET http://...000.htm1> 
DEBUG: title: [u'set unique family well'] 
DEBUG: price: [u'334.39'] 

DEBUG: description: [u'website...'] 

DEBUG: address: [u'Angel, London'] 

DEBUG: image urls: [u'../images/i01.jpg'] 
INFO: Closing spider (finished) 


非常 好 ! 不 要 被 大 量 的 日 志 行 吓 倒 。 我 们 将 会 在 后 续 的 章节 中 更 详 
细 地 研究 其 中 的 一 部 分 ， 不 过 对 于 现在 而 言 ， 只 需要 注意 到 所 有 使 用 
XPath 表达 式 收集 到 的 数据 确实 能 够 通过 这 个 简单 的 爬虫 代码 抽取 出 来 
WRIT. 

让 我 们 再 来 试验 一 下 另 一 个 命令 : scrapy parse。 它 允许 我 们 使 
用 “最 合适 ”的 爬虫 来 解析 参数 中 给 定 的 任意 URL。 我 不 喜欢 抱 有 侥幸 心 
理 ， 所 以 我 们 使 用 它 结 合 --spider 人 参数 来 设置 爬虫 。 


$ scrapy parse --spider=basic http://web:9312/properties/property 000001. 
html 





你 会 看 到 输出 和 之 前 是 相似 的 ， 只 不 过 现在 是 另 一 套房 产 。 














scrapy parse 同 样 也 是 一 个 相当 方便 的 调试 工具 。 在 任何 情况 下 ， 如 果 
你 想 “ 认 真 ” 抓 取 的 话 ， 应 当 使 用 主 命令 scrapy crawl. 


























3.3.3 HH Titem 


我 们 将 会 对 前 面 的 代码 进行 少量 修改 ， 以 填充 PropertiesItem。 你 
将 会 看 到 ， 尺 管 修 改 非常 轻微 ， 但 是 会 “解锁 ”大 量 的 新 功能 。 


首先 ， 需 要 引入 PropertiesItem 类 。 如 前 所 述 ， 它 在 properties 目 
录 的 items.py 文 件 中 ， 也 就 是 properties.items 模 块 中 。 我 们 回 
到 properties/spiders/basic.py 文 件 ， 使 用 如 下 命令 引入 该 模块 。 


from properties.items import PropertiesItem 








然后 需要 进行 实例 化 ， 并 返回 一 个 对 象 。 这 非常 简单 。 在 parse() 
方法 中 ， 可 以 通过 添加 item 三 PropertiesItem() 语 句 创 建 一 个 新 的 
item， 然 后 可 以 按 如 下 方式 为 其 字段 分 配 表 达 式 。 


item['title'] = 
response. xpath('//*[@itemprop="name"][1]/text()').extract() 


最 后 ， 使 用 return item 返 回 item。 最 新 版 的 
properties/spiders/basic.py 代 码 如 下 所 示 。 


import scrapy 
from properties.items import PropertiesItem 


class BasicSpider(scrapy.Spider): 
name = "basic" 
allowed_domains = ["web"] 
start_urls = ( 
"http: //web:9312/properties/property_000000.htm1', 
) 


def parse(self, response): 
item = PropertiesItem() 
item['title'] = response. xpath( 
'//* [@itemprop="name"][1]/text()').extract() 
item['price'] = response. xpath( 
'//* [@itemprop="price"][1]/text()').re('[.0-9]+') 
item['description'] = response. xpath( 
'//* [@itemprop="description"][1]/text()').extract() 
item['address'] = response. xpath( 
'//*[@itemtype="http://schema.org/' 
'Place"][1]/text()').extract() 
item['image urls'] - response.xpath( 
'//* [@itemprop="image"][1]/@src').extract() 
return item 


现在 ， 如 果 你 再 像 之 前 那样 运行 scrapy crawl basic， 就 会 发 现 一 
个 非常 小 但 很 重要 的 区 别 。 我 们 不 再 在 日 志 中 记录 抓 取 值 (所 以 没有 包 
含 字 段 值 的 opEBuG: 行 了 ) ， 而 是 看 到 如 下 的 输出 行 。 


DEBUG: Scraped from <200 
http://...000.html» 

{'address': [u'Angel, London'], 
'description': [u'website ... offered'], 
'image urls': [u'../images/i01.jpg'], 
'price': [u'334.39'], 

'title': [u'set unique family well']} 








这 是 从 本 页 面 抓 取得 到 的 PropertiesItem。 非 常 好 ， 因 为 Scrapy 是 








围绕 着 Items 的 概念 构建 的 ， 也 就 是 说 你 现在 可 以 使 用 后 续 章 市 中 介绍 
的 管道 ， 对 其 进行 过 滤 和 丰富 了 ， 并 且 可 以 通过 “Feed exports” 将 其 以 不 
同 的 格式 导出 存储 到 不 同 的 地 方 。 


3.3.4 保存 文件 
请 尝试 如 下 疏 取 示例 。 


$ scrapy crawl basic -0 items.json 

$ cat items.json 

[{"price": ["334.39"], "address": ["Angel, London"], "description": 
["website court ... offered"], "image urls": ["../images/i01.jpg"], 
"title": ["set unique family well"])] 


$ scrapy crawl basic -o items.jl 

$ cat items.jl 

("price": ["334.39"], "address": ["Angel, London"], "description": 
["website court ... offered"], "image urls": ["../images/i01.jpg"], 
"title": ["set unique family well"]) 


$ scrapy crawl basic -o items.csv 

$ cat items.csv 

description,title,url,price,spider,image urls... 

"...Offered",set unique family well,,334.39,,../images/i01.jpg 

$ scrapy crawl basic -o items.xml 

$ cat items.xml 

<?xml version="1.0" encoding="utf -8"?> 
<items><item><price><value>334.39</value></price>. ..</item></items> 





我 们 不 需要 编写 任何 额外 的 代码 ， 就 可 以 保存 为 这 些 不 同 的 格式 。 
Scrapy 在 幕后 识别 你 想 要 输出 的 文件 扩展 名 ， 并 以 适当 的 格式 输出 到 文 
件 中 。 前 面 的 格式 履 盖 了 一 些 最 第 见 的 用 例 。CSV 和 XML 文件 非常 流 
行 ， 因 为 类 似 微 软 Excel 的 电子 表格 程序 可 以 直接 打开 它们 。JSON 文 件 
在 网 上 非常 流行 ， 原因 是 它们 富有 表现 力 而 且 与 JavaScript 的 关系 相当 密 
切 。JSON 与 JSON 行 (JSON Line) 格式 的 轻微 不 同 是 ，.json 文 件 是 在 
一 个 大 数组 中 存储 JSON 对 象 的 。 这 就 意味 着 如 果 你 有 一 个 1GB 的 文 
件 ， 你 可 能 不 得 不 在 使 用 典型 的 解析 器 解析 之 前 ， 将 其 全 部 存 入 内 存 当 
W a 所 以 它们 可 以 被 更 高 效 地 
读 取 。 

将 你 生成 的 文件 保存 到 文件 系统 之 外 的 地 方 也 很 容易 。 比 如 ， 通 过 
使 用 如 下 命令 ，Scrapy 可 以 自动 将 文件 上 传 到 FTP 或 53 存 储 桶 中 。 


$ scrapy crawl basic -o "ftp://user:pass@ftp.scrapybook.com/items.json " 
$ scrapy crawl basic -o "s3://aws_key:aws_secret@scrapybook/items. json" 




















需要 注意 意 的 是 ， 除 非 凭证 和 URL 都 更 新 为 与 有 效 的 主机 /S3 提 供 商 
相 匹 配 ， 和 否则 该 示例 无 法 工作 。 
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KI MySQL3Ka Eh EL? 起 初 ， 我 也 对 Scrapy 缺 少 针 对 MySQL 或 其 他 
数据 库 的 内 置 支 持 感到 惊讶 。 而 实际 上 ， 没 有 什么 是 内 置 的 ， 这 与 Scrapy 的 
思考 方式 是 完全 违背 的 。Scrapy 的 目标 是 快速 和 可 扩展 。 它 使 用 了 很 少 的 
CPU， 以 及 从 可 能 高 的 入 站 之 宽 。 从 性 能 的 角度 来 看 ， 将 数据 插入 到 大 部 分 
关系 型 数据 库 将 会 是 一 场 灾 难 。 当 需要 将 item 插 入 到 数据 库 时 ， 必 须 将 其 先 
存储 到 文件 当中 ， 然 后 再 使 用 批量 加 载 机 制导 入 它们 。 在 第 9 章 中 ， 我 们 将 会 
看 到 多 种 高 效 的 方式 ， 用 来 将 独立 的 item 导 入 到 数据 库 中 。 

















































































































这 里 需要 注意 的 男 一 件 事 是 ， 如 果 你 现在 尝试 使 用 scrapy parse, 
dE ELA TRBSGIBUEBEBIK CAS BL HBAS 
DM 


$ scrapy parse --spider=basic http://web:9312/properties/property 000001. 
html 
INFO: Scrapy 1.0.3 started (bot: properties) 


INFO: Spider closed (finished) 


>>> STATUS DEPTH LEVEL 1 ««« 
# Scraped Items ------------------------------------------------ 
[{'address': [u'Plaistow, London'], 
'description': [u'features'], 
'image urls': [u'../images/i02.jpg'], 
'price': [u'388.03'], 
'title': [u'belsize marylebone...deal']}] 
# Requests ------------------------------------------------ 


在 调试 给 出 意料 之 外 的 结果 的 URL 时 ， 你 会 更 加 感激 scrapy 


parse. 


3.3.5 “清理 item 装 载 器 与 管理 字段 


藕 喜 ， 你 在 创建 基础 爬虫 方面 做 得 不 错 ! 下 面 让 我 们 做 得 更 专业 一 
EGRE, 


首先 ， 我 们 使 用 一 个 强大 的 工具 类 一 一 ItemLoader， 以 蔡 代 那些 杂 
乱 的 extract() 和 xpath( ) 操 作 。 通过 使 用 该 类 ， 我 们 的 parse( ) 方 法 会 按 
如 下 进行 代码 变更 。 


def parse(self, response): 
1 = ItemLoader(item-PropertiesItem(), response-response) 








l.add xpath('title', '//*[@itemprop="name"][1]/text()') 

l.add xpath('price', './/*[@itemprop="price"]' 
'[1]/text()', rez'[,.0-9]*') 

l.add xpath('description', '//*[Qitemprop-"description"]' 
'[1]/text() ') 

l.add xpath('address', '//*[Qitemtype-' 
'"http://schema.org/Place"][1]/text()') 

l.add xpath('image urls', '//*[@itemprop="image"][1]/@src') 


return 1.load_item() 





好 多 了 ， 是 不 是 ?不 过 ， 这 种 写法 并 不 只 是 在 视觉 上 更 加 和 舒适 ， 它 
还 非 第 明确 地 声明 了 我 们 意图 去 做 的 事情 ， 而 不 会 将 其 与 实现 细 市 混 活 
起 来 。 这 就 使 得 代码 具有 更 好 的 可 维护 性 以 及 目 描述 性 。 


ItemLoader 提 供 了 许多 有 趣 的 结合 数据 及 对 数据 进行 格式 化 和 清洗 
的 方式 。 请 注意 ， 此 类 功能 的 开发 非常 活跃 ， 因 此 请 查阅 Scrapy 优 秀 的 
官方 文档 来 发 现 使 用 它们 的 更 高 效 的 方式 ， 文 档 地 址 为 
http://doc.scrapy.org/en/latest/topics/loaders.html. Itemloaders 
通过 不 同 的 处 理 类 传递 XPathMCSS 表 达 式 的 值 。 处 理 器 是 一 个 快速 而 又 
简单 的 函数 。 处 理 器 的 一 个 例子 是 Join()。 假 设 你 已 经 使 用 类 似 //p 的 
XPath 表 达 式 选取 了 很 多 个 段 沙 ， 该 处 理 器 可 以 将 这 些 段 沙 结合 成 一 个 
条 有 日 。 男 一 个 非常 有 意思 的 处 理 器 是 Mapcompose()。 通 过 该 处 理 器 ， 你 
可 以 使 用 任意 Python 函数 或 Python 函数 链 ， 以 实现 复杂 的 功能 。 比 
如 ，Mapcompose(float ) 可 以 将 字符 串 数 据 转换 为 数值 ， 
而 MapCompose(Unicode.strip, Unicode.title) 可 以 删除 多 余 的 空白 符 ， 
并 将 字符 串 格 式 化 为 每 个 单词 均 为 首 字 母 大 写 的 样式 。 让 我 们 看 一 些 处 
理 占 的 例子 ， 如 表 3.4 所 示 。 

















表 3.4 























守 串 转 为 数值 ， 并 忽略 可 能 存在 的 ,字符 


以 response.ur1 为 基础 ， 将 URL 相 对 路 径 转 换 为 URL 绝 对 路 径 
urljoin (response.url, i)) 


你 可 以 使 用 任何 Python 表 达 式 作为 处 理 器 。 可 以 看 到 ， 我 们 可 以 很 
容易 地 将 它们 一 个 接 一 个 地 连接 起 来 ， 比 如 ， 我 们 前 面 给 出 的 去 除 首 尾 
空白 符 以 及 标题 化 的 例子 。unicode.strip() 和 unicode.title() 在 某 种 
意义 上 来 说 比较 简单 ， 它 们 只 有 一 个 参数 ， 并 且 也 只 有 一 个 返回 结果 。 
我 们 可 以 在 Mapcompose 处 理 器 中 直接 使 用 它们 。 而 男 一 些 隙 数 ， 像 
replace() 或 urljoin()， 就 会 稍微 有 点 复杂 ， 它 们 需要 多 个 参数 。 对 于 
这 种 情况 ， 我 们 可 以 使 用 Python 的 “lambda 表达 式 ”。lambda 表 达 式 是 一 
种 简洁 的 函数 。 比 如 下 面 这 个 简 活 的 lambda 表 达 式 。 

















myFunction = lambda i: i.replace(',', '') 
a URË: 
def myFunction(i): 

return i.replace(',', '') 


通过 使 用 lambda， 我 们 将 类 似 replace( ) 和 urljoin() 这 样 的 函数 包 
装 在 只 有 一 个 参数 及 一 个 返回 结果 的 函数 中 。 为 了 能 够 更 好 地 理解 表 





3.4 中 的 处 理 器 ， 下 面 看 几 个 使 用 处 理 器 的 例 了 于 。 使 用 scrapy shell 打 开 
任意 URL， 然 后 尝试 如 下 操作 。 


>>> from scrapy.loader.processors import MapCompose, Join 

>>> Join()(['hi', 'John']) 

u'hi John' 

>>> MapCompose(unicode.strip)([u' I',u' am\n']) 

[u'I', u'am'] 

>>> MapCompose(unicode.strip, unicode.title)([u'nIce cODe']) 
[u'Nice Code'] 

>>> MapCompose(float)(['3.14']) 

[3.14] 

>>> MapCompose(lambda i: i.replace(',', ''), float)(['1,400.23']) 
[1400.23] 

>>> import urlparse 

>>> mc = MapCompose(lambda i: urlparse.urljoin('http://my.com/test/abc', 
i)) 

>>> mc(['example.html#check']) 
['http://my.com/test/example.html#check' ] 

>>> mc(['http://absolute/url#help']) 

['http://absolute/urlzhelp'] 
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的 处 理 器 ， 并 按照 我 们 想 要 的 方式 输出。 


def parse(self, response): 

l.add xpath('title', '//*[@itemprop="name"][1]/text()', 
MapCompose(unicode.strip, unicode.title)) 

l.add xpath('price', './/*[@itemprop="price"][1]/text()', 
MapCompose(lambda i: i.replace(',', ''), float), 
re-'[,.0-9]*') 

l.add xpath('description', '//*[Qitemprop-"description"]' 
'[1]/text()', MapCompose(unicode.strip), Join()) 

l.add xpath('address', 
'//*[Qitemtypez"http://schema.org/Place"][1]/text()', 
MapCompose(unicode.strip)) 

l.add xpath('image urls', '//*[@itemprop="image"][1]/@src', 
MapCompose( 
lambda i: urlparse.urljoin(response.url, i))) 


完整 列表 将 会 在 本 章 后 续 部 分 给 出 。 当 你 使 用 我 们 目前 开发 的 代码 
运行 scrapy crawl basic 时 ， 可 以 得 到 更 加 整洁 的 输出 值 。 


'price': [334.39], 
'title': [u'Set Unique Family Well'] 


最 后 ， 我 们 可 以 通过 使 用 add_value() 方 法 ， 添 加 Python 计算 得 出 的 
单个 值 〈 而 不 是 XPathMCSS 表 达 式 ) 。 我 们 可 以 用 该 方法 设置 “管理 字 


段 *， 比 如 URL、 疏 虫 名 称 、 时 间 惟 等。 我们 还 可 以 直接 使 用 管理 字段 
表 中 总 结 出 来 的 表达 式 ， 如 下 所 示 。 

l.add value('url', response.url) 

l.add value('project', self.settings.get('BOT NAME')) 
l.add value('spider', self.name) 


l.add value('server', socket.gethostname()) 
l.add value('date', datetime.datetime.now()) 


为 了 能 够 使 用 其 中 的 某 些 函 数 ， 请 记得 引入 datetime 和 socket 模 
块 。 


好 了 ! 我 们 现在 已 经 得 到 了 非常 不 错 的 Item。 此 刻 ， 你 的 第 一 感觉 
可 能 是 所 做 的 这 些 都 很 复杂 ， 你 可 能 想 要 知道 这 些 工作 是 不 是 值得 付出 
努力 。 答 案 当 然 是 值得 的 一 一 这 是 因为 ， 这 就 是 你 为 了 从 页 面 抽 取 数 据 
并 将 其 存储 到 Item 中 几乎 所 有 需要 知道 的 东西 。 如 果 你 从 零 开始 编写 ， 
或 者 使 用 其 他 语言 ， 该 代码 通常 都 会 非常 难看 ， 而 且 很 快 就 会 变 得 不 可 
维护 。 而 使 用 Scrapy 时 ， 只 需要 仅仅 25 行 代码 。 该 代码 十 分 简洁 ， 用 于 
表明 意图 ， 而 不 是 实现 细节 。 你 清楚 地 知道 每 一 行 代码 都 在 做 什么 ， 并 
且 它 可 以 很 容易 地 修改 、 复 用 及 维护 。 


你 可 能 产生 的 男 一 个 感觉 是 所 有 的 处 理 器 以 及 ItemLoader 并 不 值得 
去 努力 。 如 果 你 是 一 个 经 验 丰富 的 Python 开发 者 ， 可 能 会 觉得 有 些 不 舒 
服 ， 因 为 你 必须 去 学 习 新 的 类 ， 来 实现 通常 使 用 字符 串 操作 、lambda 表 
达 式 以 及 列表 推导 式 束 可 以 完成 的 操作 。 不 过 ， 这 只 是 ItemLoader 及 其 
功能 的 简要 概述 。 如 果 你 更 加 深入 地 了 人 解 它 ， 束 不 会 再 回头 
了 。ItemLoader 和 处 理 器 是 基于 编写 并 支持 了 成 干 上 万 个 扑 虫 的 人 们 的 
抓 取 需求 而 开发 的 工具 包 。 如 果 你 准备 开发 多 个 爬虫 的 话 ， 惑 非 背 值得 
去 学 习 使 用 它们 。 


3.3.6 ”创建 contract 


contract 有 点 像 为 爬虫 设计 的 单元 测试 。 它 可 以 让 你 快速 知道 哪里 
有 运行 异常 。 例 如 ， 假 设 你 在 几 个 星期 之 前 编写 了 一 个 抓 取 程 序 ， 其 中 
包含 几 个 爬虫 ， 今 天 想 要 检查 一 下 这 些 爬 虫 是 否 仍然 能 够 正常 工作 ， 束 
可 以 使 用 这 种 方式 。contract 包 含 在 紧 挨 着 函数 名 的 注释 〈( 即 文档 字符 
P) 中 ， 并 且 以 @ 开 头 。 下 面 来 看 几 个 contract 的 例子 。 


def parse(self, response): 
"" This function parses a property page. 



































Qurl http://web:9312/properties/property 000000.html 
@returns items 1 

Qscrapes title price description address image urls 
Qscrapes url project spider server date 


上 述 代 码 的 含义 是 ， 检 查 该 URL， 并 找到 我 列 出 的 字段 中 有 值 的 一 
个 Item。 现 在 ， 当 你 运行 scrapy check 时 ， 就 会 去 检查 contract 是 否 能 够 
满足 。 


$ scrapy check basic 


Ran 3 contracts in 1.640s 
OK 


如 果 将 ur1l 字 段 留 空 〈 通 过 注释 挥 该 行 来 设置 ) ， 你 会 得 到 一 个 失 
败 描述 。 


FAIL: [basic] parse (@scrapes post-hook) 


ContractFail: 'url' field is missing 


contract 失 败 的 原因 可 能 是 爬虫 代码 无 法 运行 ， 或 者 是 你 要 检查 的 
URL 的 XPath 表达 式 已 经 过 时 了 。 虽 然 结 末 并 不 详尽 ， 但 它 是 抵御 坏 代 
人 码 的 第 一 道 灵 巧 的 防线 。 


综合 上 面 的 内 容 ， 下 面 给 出 我 们 的 第 一 个 基础 仆 忠 的 代码 。 


from scrapy.loader.processors import MapCompose, Join 
from scrapy.loader import ItemLoader 

from properties.items import PropertiesItem 

import datetime 

import urlparse 

import socket 

import scrapy 


class BasicSpider(scrapy.Spider): 
name - "basic" 
allowed domains - ["web"] 


# Start on a property page 
start urls = ( 

'http://web:9312/properties/property 000000.html', 
) 


def parse(self, response): 
""" This function parses a property page. 


Qurl http://web:9312/properties/property 000000.html 
@returns items 1 

Qscrapes title price description address image urls 
Qscrapes url project spider server date 

nnum" 

# Create the loader using the response 

l = ItemLoader(item-PropertiesItem(), response-response) 


# Load fields using XPath expressions 

l.add xpath('title', '//*[@itemprop="name"][1]/text()', 
MapCompose(unicode.strip, unicode.title)) 

l.add xpath('price', './/*[@itemprop="price"][1]/text()', 
MapCompose(lambda i: i.replace(',', ''), 
float), 
re='[,.0-9]+') 

l.add xpath('description', '//*[Qitemprop-"description"]' 
'[1]/text()', 
MapCompose(unicode.strip), Join()) 

l.add xpath('address', 
'//*[Qitemtypez"http://schema.org/Place"]' 
'[1]/text()', 
MapCompose(unicode.strip)) 

l.add xpath('image urls', '//*[@itemprop="image"]' 
'[1]/0src', MapCompose( 
lambda i: urlparse.urljoin(response.url, i))) 


Housekeeping fields 

.add value('url', response.url) 

.add value('project', self.settings.get('BOT NAME')) 
.add value('spider', self.name) 

.add value('server', socket.gethostname()) 

.add value('date', datetime.datetime.now()) 


HEHE PE tt 


return 1.load_item() 


3.4 ”抽取 更 多 的 URL 


到 目前 为 止 ， 我 们 使 用 的 只 是 设置 在 爬虫 的 start_urls 属 性 中 的 单 
a ee ee 
RATAN. 


start_urls = ( 
'http://web:9312/properties/property 000000.html', 
'http://web:9312/properties/property 000001.html', 
'http://web:9312/properties/property 000002.html', 
) 


这 种 写法 可 能 不 会 让 你 太 激 动 。 不 过 ， 我 们 还 可 以 使 用 文件 作为 
URL 的 源 ， 写 法 如 下 所 示 。 


start_urls = [i.strip() for i in 
open('todo.urls.txt').readlines()] 


这 种 写法 其 实 也 不 那么 令 人 激动 ， 但 它 确实 管用 。 更 经 党 发 生 的 情 
况 是 感 兴趣 的 网 站 中 包含 一 些 索 引 页 及 房 源 页 。 比 如 ，Gumtree 就 包含 
了 如 图 3.7 所 示 的 索引 页 ， 其 地 址 为 http://www.gumtree.com/flats- 
houses/london. 
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图 3.7” Gumtree 的 索引 页 


一 个 上 典型 的 索引 页 会 包含 许多 到 房 源 页 面 的 链接 ， 以 及 一 个 能 够 让 
你 从 一 个 索引 页 前 往 为 一 个 索引 页 的 分 页 系统 。 


因此 ， 一 个 典型 的 肘 虫 会 癌 两 个 方 癌 移动 〈 见 图 3.8) : 
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图 3.8 ”加 两 个 方向 移动 的 典型 爬虫 


。 横 同一 一 从 一 个 索引 页 到 为 一 个 索引 页 ; 
© 纵 问 一 一 从 一 个 索引 页 到 房 源 页 并 抽取 Item。 


在 本 书 中 ， 我 们 将 前 者 称 为 水 平 肘 取 ， 因 为 这 种 情况 下 是 在 同一 层 
级 下 疏 取 页 面 《 比 如 索引 页 ) ;而 将 后 者 称 为 垂直 爬 取 ， 因 为 该 方式 是 
从 一 个 更 高 的 层级 《比如 索引 页 ) 到 一 个 更 低 的 层级 《比如 房 源 页 ) 。 


实际 上 ， 它 比 听 起 来 更 加 容易 。 我 们 所 有 需要 做 的 事情 就 是 再 增加 
两 个 XPath 表 达 式 。 对 于 第 一 个 表达 式 ， 右 键 单 击 Next Page 按 钮 ， 可 以 
注意 到 URL 包 含 在 一 个 链接 中 ， 而 该 链接 又 是 在 一 个 拥有 类 名 next 的 1 
标签 内 ， 如 图 3.9 所 示 。 因 此 ， 我 们 只 需 使 用 一 个 实用 的 XPath 表 达 式 //* 
[contains(@class, "next")]//@href， 就 可 以 完美 运行 了 。 
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图 3.9 ”查找 下 一 个 索引 页 UREL 的 XPath 表达 式 


对 于 第 二 个 表达 式 ， 右 键 单 击 页 面 中 的 列表 标题 ， 并 选择 Inspect 
Element， 如 图 3.10 所 示 。 
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图 3.10 “查找 列表 页 UREL 的 XPath 表达 式 


请 注意 ，UREL 中 包含 我 们 感 兴 趣 的 itemprop="url1" 属 性 。 因 此 ， 表 
达 式 //*[@itemprop="ur1"]/@href 就 可 以 正常 运行 。 现 在 ， 打 开 一 个 
scrapy shell 来 确认 这 两 个 表达 式 是 否 有 效 : 


$ scrapy shell http://web:9312/properties/index 00000.html 

>>> urls = response.xpath('//*[contains(Oclass,"next")]//Qhref' ) .extract() 
>>> urls 

[u' index 00001.html'] 

>>> import urlparse 

»»» [urlparse.urljoin(response.url, i) for i in urls] 
[u'http://web:9312/scrapybook/properties/index 00001.html'] 

>>> urls = response.xpath('//*[Qitemprop-"url"]/Qhref').extract() 





>>> urls 

[u'property 000000.html', ... u'property 000029.html'] 
>>> len(urls) 

30 

»»» [urlparse.urljoin(response.url, i) for i in urls] 
[u'http://... 000000.html', ... /property 000029.html'] 


非常 好 ! 可 以 看 到 ， 通 过 使 用 之 前 已 经 学 习 的 内 容 及 这 两 个 XPath 
表达 式 ， 我 们 已 经 能 够 按照 上 自身 需求 使 用 水 平 抓 取 和 垂直 抓 取 的 方式 抽 
取 URL 了 。 


3.4.1 (EHER SCH RY ry MEY 
3324 135 Z ATEEN 8]— CEP, FR aT Amanual. py. 


$ 1s 
properties scrapy.cfg 
$ cp properties/spiders/basic.py properties/spiders/manual.py 








在 properties/spiders/manual.py 文 件 中 ， 通 过 添加 from 
scrapy.http import Request 语 句 引 入 Request 模 块 ， 将 讨 虫 的 name 参 数 
改 为 'manual'， 修 改 start_urls 以 使 用 第 一 个 索引 页 ， 并 将 parse() 方 法 
重 命名 为 parse_item()。 好 了 ! 现在 开始 编写 一 个 新 的 parse() 方 法 ， 来 
实现 水 平和 垂直 两 种 抓 取 方式 。 


def parse(self, response): 
# Get the next index URLs and yield Requests 
next selector = response. xpath('//*[contains(@class, ' 
" next") ]//@href ' ) 
for url in next_selector.extract(): 
yield Request(urlparse.urljoin(response.url, url)) 


# Get item URLs and yield Requests 
item selector = response. xpath('//*[@itemprop="url1"]/@href' ) 
for url in item_selector.extract(): 
yield Request(urlparse.urljoin(response.url, url), 
callback=self.parse_item) 


M 























你 可 能 已 经 注意 到 了 前 面 例 子 中 的 yield 语 句 。 yield 与 return 在 某 种 意 
义 上 来 说 有 些 相 似 ， 都 是 将 返回 值 提供 给 调用 者 。 不 过 ， 和 return 不 同 的 
是 ，yield 不 会 退出 函数 ， 而 是 继续 执行 for 循 环 。 从 功能 上 来 说 ， 前 面 的 例 
子 与 下 面 的 代码 大 体 相当 : 


next_requests = [] 

for url in... 
next_requests.append(Request(...)) 

for url in... 
next_requests.append(Request(...)) 

return next_requests 

































































yield 是 Python“ 魔 法 ”的 一 部 分 ， 它 可 以 使 日 常 的 高 效 编程 工作 更 加 轻 
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式 运行 的 话 ， 则 会 抓 取 网 站 完整 的 5 万 个 页 面 。 为 了 避免 运行 时 间 过 
长 ， 可 以 通过 命令 行 参数 : -s CLOSESPIDER_ITEMCOUNT=90, AERE 
疏 取 指定 数量 《如 90 个 ) 的 Item 后 停止 运行 《更 多 细节 参见 第 7 章 ) 。 
现在 ， 我 们 可 以 运行 了 。 

$ scrapy crawl manual -s CLOSESPIDER_ITEMCOUNT=90 

INFO: Scrapy 1.0.3 started (bot: properties) 








DEBUG: Crawled (200) «...index 00000.html» (referer: None) 
DEBUG: Crawled (200) «...property 000029.html» (referer: ...index 00000. 
html) 
DEBUG: Scraped from «200 ...property 000029.html» 
{'address': [u'Clapham, London'], 


'date': [datetime.datetime(2015, 10, 4, 21, 25, 22, 801098)], 
'description': [u'situated camden facilities corner'], 

'image urls': [u'http://web:9312/images/i10.jpg'], 

'price': [223.88], 

'project': ['properties'], 

'server': ['scrapyserver1'], 

'spider': ['manual'], 

'title': [u'Portered Mile'], 

'url': ['http://.../property_000029.htm1']} 


DEBUG: Crawled (200) «...property 000028.html» (referer: ...index 00000. 
html) 

DEBUG: Crawled (200) «...index 00001.html» (referer: ...) 

DEBUG: Crawled (200) «...property 000059.html» (referer: ...) 


INFO: Dumping Scrapy stats: ... 
'downloader/request count': 94, ... 
'item scraped count': 90, 
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直 抓 取 的 结果 。 第 一 个 index_966gg.htm1l 读 取 后 ， 派 生出 了 许多 请 求 。 
当 它 们 执行 时 ， 调 试 信息 通过 referer ”URL 指出 是 谁 发 起 的 请 求 。 比 
如 ， 可 以 看 到 ， property 000029.html. property 000028.html.... 及 
index_00001.html 都 有 相同 的 referer (index 00000.html) o 
而 property_000059 html 及 其 他 请 求 则 是 以 index_00001， html VW referer 
的 ， 并 且 访 过程 还 在 持续 。 


从 该 示例 中 还 可 以 观察 到 ，Scrapy 在 处 理 请 求 时 使 用 的 是 后 入 先 出 
(LIFO) 策略 《 即 深度 优先 爬 取 ) 。 用 户 提交 的 最 后 一 个 请 求 会 被 首 
先 处 理 。 在 大 多 数 情况 下 ， 这 种 默认 的 方式 非常 方便 。 比 如 ， 我 们 想 要 
在 移动 到 下 一 个 索引 页 之 前 处 理 每 一 个 房 源 页 时 。 人 否则 ， 我 们 将 会 填充 
一 个 包含 等 仆 取 房 源 页 URL 的 巨大 队列 ， 无 谓 地 消耗 内 存 。 为 外 ， 在 许 
多 情况 中 ， 你 可 能 需要 辅助 的 请 求 来 完成 单个 请 求 ， 我 们 将 会 在 后 面 的 
章节 中 遇 到 这 种 情况 。 你 需要 这 些 辅助 的 请 求 能 够 尽快 完成 ， 以 腾 出 资 
源 ， 并 且 让 被 抓 取 的 Item 能 够 稳定 流动 。 


我 们 可 以 通过 设置 Request() 的 优先 级 参数 修改 默认 顺序 ， 大 于 0 表 
示 高 于 默认 的 优先 级 ， 小 于 0 表示 低 于 默认 的 优先 级 。 通 常 来 说 ， 
Scrapy 的 调度 器 会 首先 执行 高 优先 级 的 请 求 ， 不 过 不 要 花费 太 多 时 间 来 
考虑 具体 的 哪个 请 求 应 该 被 首先 执行 。 很 可 能 在 你 的 应 用 中 ， 不 会 使 用 
超过 1 个 或 2 个 请 求 优 先 级 。 此 外 还 需要 注意 的 是 ，URL 还 会 被 执行 去 重 
操作 ， 这 在 大 部 分 时 候 也 是 我 们 想 要 的 功能 。 不 过 如 果 我 们 需要 多 次 执 
行 同一 个 URL 的 请 求 ， 可 以 设置 dont_filter_Request() 参 数 为 true。 
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的 实现 同样 结果 的 方式 是 使 用 crawlspider， 这 是 一 个 能 够 更 容易 地 实 
现 这 种 爬 取 的 类 。 为 了 实现 它 ， 我 们 需要 使 用 genspider 命 令 ， 并 设置 - 
t craw1 参 数 ， 以 使 用 craw1 怜 虫 模板 创建 一 个 爬虫 。 


$ scrapy genspider -t crawl easy web 
Created spider 'crawl' using template 'crawl' in module: 
properties.spiders.easy 


现在 ， 文 件 properties/spiders/easy.py 包 含 如 下 内 容 。 


class EasySpider(CrawlSpider): 
name = 'easy' 
allowed domains - ['web'] 
start urls = ['http://www.web/' ] 


rules - ( 
Rule(LinkExtractor(allow-r'Items/'), 
callback-'parse item', follow-True), 


def parse item(self, response): 


当 你 阅读 这 上段 自动 生成 的 代码 时 ， 会 发 现 它 和 之 前 的 爬虫 有 些 相 
似 ， 不 过 在 此 处 的 类 声明 中 ， 会 发 现 爬 虫 是 继承 目 crawlspider， 而 不 
再 是 spider。crawlspider 提 供 了 一 个 使 用 rules 变 量 实 现 的 parse() 方 
法 ， 这 与 我 们 之 前 例子 中 手工 实现 的 功能 一 致 。 








你 可 能 会 感到 疑惑 ， 为 什么 我 首先 给 出 了 手工 实现 的 版 本 ， 而 不 是 直 
接 给 出 捷径 。 这 是 因为 你 在 手工 实现 的 示例 中 ， 学 会 了 使 用 回调 的 yield 方 式 
的 请 求 ， 这 是 一 个 非常 有 用 和 基础 的 技术 ， 我 们 将 会 在 后 续 的 章节 中 不 断 使 
用 它 ， 因 此 理解 该 内 容 非 常 值得 。 

































































现在 ， 我 们 要 把 start_urls 设 置 成 第 一 个 索引 页 ， 并 且 用 我 们 之 前 
的 实现 苦 换 预定 义 的 parse_item() 方 法 。 这 次 我 们 将 不 再 需要 实现 任 
何 parse() 方 法 。 我 们 将 预定 义 的 rules 变 量 蔡 换 为 两 条 规则 ， 即 水 平 抓 
取 和 垂直 抓 取 。 


rules = ( 

Rule(LinkExtractor(restrict_xpaths='//*[contains(@class,"next")]')), 

Rule(LinkExtractor(restrict_xpaths='//*[@itemprop="url"]'), 
callback='parse_item' ) 

) 








这 两 条 规则 使 用 的 是 和 我 们 之 前 手工 实现 的 示例 中 相同 的 XPath 表 
达 式 ， 不 过 这 里 没有 了 a 或 href 的 限制 。 顾 名 思 义 ，LinkExtractor 正 是 
专门 用 于 抽取 链接 的 ， 因 此 在 默认 情况 下 ， 它 们 会 去 查找 a( 太 
area) href 属 性 。 你 可 以 通过 设置 LinkExtractor() 的 tags 和 attrs 参 数 
来 进行 目 定义 。 需 要 注意 的 是 ， 回 调 参数 目前 是 包含 回调 方法 名 称 的 字 
符 串 《比如 'parse_item' ) ， 而 不 是 方法 引用 ， 如 
Request(self.parse item). 最 后 ， 除非 设置 了 callback 人 参数 ， a 
Wi RuleYEERERUCLZSTHHUHJURL, ite nc He fata HB EXBU 
外 的 链接 并 跟踪 它们 。 如 果 设 置 了 callback，Rule 将 不 会 跟踪 目标 页 面 
的 链接 。 如 果 你 希望 它 跟踪 链接 ， 应 当 在 callback 方 法 中 使 用 return 
或 yield 返 回 它们 ， 或 者 将 Rule( ) 的 follow 参 数 设 置 为 true。 当 你 的 房 源 
页 既 包含 Ttem 又 包含 其 他 有 用 的 导航 链接 时 ， 该 功能 可 能 会 非常 有 用 。 





运行 该 肘 虫 ， 可 以 得 到 和 手工 实现 的 爬虫 相同 的 结 采 ， 不 过 现在 使 
用 的 是 一 个 更 加 简单 的 源 代 码 。 


$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=90 


3.5 本章 小 结 


本 章 可 能 是 大 家 开始 学 习 Scrapy 时 最 重要 的 一 章 。 你 刚刚 学 习 了 开 
AME d FEAST TIA: UR2IM。 你 学 会 了 如 何 自 定义 适合 需求 的 Ttem， 
使 用 ItemLoader、XPath 表 达 式 和 处 理 器 加 载 Item， 以 及 如 何 对 Redquest 
使 用 yield 操 作 。 我 们 使 用 Request 横 癌 到 达 不 同 的 索引 页 ， 纵 癌 到 达 房 
源 页 并 抽取 Item。 最 后 ， 我 们 看 到 了 如 何 使 用 crawlspider 和 Rule， 以 很 
少 的 代码 行 创 建 非常 强大 的 肘 虫 。 如 果 你 想 要 更 深入 地 理解 这 些 概念 ， 
> 


我 们 刚刚 从 网 站 中 得 到 了 一 些 信息 。 为 什么 它 这 么 重要 呢 ? 我 
案 会 在 下 一 章 中 变 得 明明 起 来 ， 在 下 一 章 中 ， 通 过 简单 的 几 页 内 容 
们 将 会 开发 一 个 简单 的 手机 应 用 ， 并 使 用 Scrapy 填 充 其 中 的 数据 。 我 
想 ， 结 果 会 令 大 家 印象 深刻 。 
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第 4 章 ” 从 Scrapy 到 移动 应 用 


我 能 够 听 到 人 们 的 尖 叫 声 : “Appery.io 是 什么 ， 一 个 手机 应 用 的 专 
用 平台 ， 它 和 Scrapy 有 什么 关系 ? ”那么 ， 眼 见 为 实 吧 。 你 可 能 还 会 对 
几 年 前 在 Excel 电 子 表格 上 给 茶 个 人 《朋友 、 管 理 者 或 者 客户 ) 展示 数 
据 时 的 场景 印象 深刻 。 不 过 现 如 今 ， 除 非 你 的 听众 都 十 分 老练 ， 人 否则 他 
们 的 期 望 很 可 能 会 有 所 不 同 。 在 接 下 来 的 几 页 里 ， 你 将 看 到 一 个 简单 的 
手机 应 用 ， 这 是 一 个 只 需 几 次 单 击 束 能 够 创建 出 来 的 最 小 可 视 化 产品 ， 
其 目的 是 癌 利 益 相 关 者 传达 抽取 所 得 数据 的 力量 ， 并 回 到 生态 系统 中 ， 
以 源 网 站 网 络 流量 的 形式 展示 它 能 够 带 来 的 价值 。 


我 将 尽量 保持 简短 的 局 发 式 示 例 ， 在 这 里 它们 将 展示 如 何 充 分 利用 
你 的 数据 。 只 有 当 你 有 一 个 具体 的 应 用 用 于 消费 数据 时 ， 才 可 以 安全 地 
略 过 本 章 。 本 章 将 会 癌 你 展示 如 何以 当下 最 流行 的 方式 一 一 手机 应 用 ， 
问 公 众 展示 你 的 数据 。 
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借助 于 适当 的 工具 癌 手 机 应 用 提供 数据 将 是 非常 容易 的 事情 。 目 前 
有 许多 优秀 的 器 平台 手机 应 用 开发 框架 ， 如 PhoneGap、 使 用 
Appcelerator 云 服务 的 Appcelerator、jQuery Mobile 和 Sencha Touch. 


本 章 将 使 用 Appery.io， 因 为 它 可 以 让 我 们 使 用 PhoneGap 和 jQuery 
Mobile 快 速 创建 :OS、Android、Windows Phone 以 及 HTML5 手 机 应 用 。 
我 和 Scrapy 都 与 Appery.io 无 任何 利益 关联 。 我 会 残 励 你 独立 进行 调研 ， 
看 看 除了 本 章 中 提出 的 功能 外 ， 它 是 否 也 能 符合 你 的 需求 。 请 注意 这 是 
一 个 付费 服务 ， 你 可 以 有 14 天 的 试用 期 ， 不 过 在 我 看 来 ， 它 可 以 让 人 无 
需 动脑 就 能 快速 开发 出 原型 ， 尤 其 是 对 于 那些 不 是 网 络 专家 的 人 来 说 ， 
为 此 付费 是 值得 的 。 我 选择 该 服务 的 主要 原因 是 它 既 能 提供 手机 应 用 ， 
也 能 提供 后 端 服 务 ， 也 就 是 说 我 们 不 需要 再 去 配置 数据 库 、 编 写 REST 
API 或 为 服务 端 及 手机 应 用 使 用 其 他 一 些 语言 。 你 将 看 到 ， 我 们 一 行 代 
码 都 不 用 去 编写 ! 我 们 将 会 使 用 它们 的 在 线 工 具 ; 在 任何 时 候 ， 你 都 可 
以 下 载 该 应 用 ， 并 作为 PhoneGap 项 目 ， 使 用 PhoneGap 的 所 有 功能 。 


在 本 章 中 ， 你 需要 接 入 互联 网 连接 ， 以 便 使 用 Appery.io。 同 时 ， 还 
需要 注意 的 是 该 网 站 的 布局 可 能 在 未 来 会 有 所 变化 。 请 将 我 们 的 截屏 作 
为 参考 ， 而 不 要 在 友 现 该 网 站 外 观 不 同时 感到 惊讶 。 
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第 一 步 是 通过 单 击 Appery.io 网 站 上 的 Sign-Up 按 钮 并 选取 免费 方 
案 ， 来 注册 免费 的 Appery.io 方 案 。 你 需要 提供 用 户 名 、 邮 箱 地 址 以 及 密 
码 ， 然 后 就 会 创建 好 新 账户 了 。 等 待 几 秒 钟 后 ， 账 户 完成 激活 。 然 后 就 
可 以 登录 到 Appery.io 的 仪表 各 了 。 现 在， 开始 准备 创建 新 的 数据 库 以 及 
集合 ， 如 图 4.1 所 示 。 
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图 4.1 ”使 用 Appery.io 创 建新 数据 库 及 集合 
为 了 完成 该 操作 ， 需 要 按照 如 下 步骤 执行 
1. 单 击 Databases 选 项 卡 (1) 。 


2. 然后 单 击 绿色 的 Create new database (2) 按钮 。 将 新 数据 库 命 
名 为 scrapy (3) 。 


3. 现在 ， 单 击 Create 按 钮 (4) 。 此 时 会 自动 打开 Scrapy 数 据 库 的 
仪表 盘 ， 在 这 里 ， 你 可 以 创建 新 的 集合 。 


在 Appery.io 的 术语 中 ， 一 个 数据 库 是 由 一 组 集合 组 成 的 。 大 致 来 
说 ， 一 个 应 用 使 用 一 个 单独 的 数据 库 〈 至 少 在 最 初时 是 这 样 ) ， 每 个 数 
据 库 中 包含 多 个 集合 ， 比 如 用 户 、 房 产 、 消 息 等 。 Appery io 默认 已 经 提 
ne 其 中 包 插 用户 名 和 密码 (它们 有 很 多 内 置 功 

。 图 4.2 所 示 为 创建 集合 的 过 程 。 
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图 4.2 ”使 用 Appery.io 创 建新 数据 库 及 集合 


现在 ， 我 们 添加 一 个 用 户 ， 用 户 名 为 root， 密 码 为 pass。 当 然 ， 你 
也 可 以 选择 更 加 安全 的 用 户 名 和 密码 。 为 实现 该 目的 ， 请 单 击 侧 边 栏 的 
Users 集 合 COD ， 然 后 单 击 +Row 添 加 用 户 / 行 (2) 。 在 出 现 的 两 个 字段 
中 填 入 用 户 名 和 密码 (3) 和 (4) 。 


我 们 还 需要 创建 一 个 新 的 集合 ， 用 于 存储 Scrapy 抓 取 到 的 房产 数 
据 ， 并 将 该 集合 命名 为 properties。 通 过 单 击 绿色 的 Create new collection 
按钮 G) ， 将 其 命名 为 properties (6) ， 然 后 单 击 Add 按 钮 (7) , W 
可 以 创建 新 的 集合 了 。 现 在 ， 我 们 还 必须 对 该 集合 进行 一 些 定制 化 处 
理 。 单 击 +Col 添 加 数据 库 列 8) 。 每 个 数据 库 列 都 有 其 类 型 ， 用 于 对 
值 进行 校 验 。 除 了 价格 是 数值 类 型 外 ， 大 部 分 字段 都 是 简单 的 字符 串 类 
型 。 我 们 将 通过 单 击 +Col 添 加 几 个 列 〈8) ， 并 填充 列 名 〈9) ， 如 果 不 
是 字符 串 类 型 的 话 ， 还 需要 选择 类 型 (10) ， 然 后 单 击 Create column 
按钮 (11) 。 重 复 该 过 程 5 次 ， 创 建 表 4.1 中 展示 的 列 。 





sting 
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像 表 4.1 中 所 示 的 那样 。 现 在 已 经 准备 好 从 Scrapy 中 导入 一 些 数据 了 。 


43 ”使 用 Scrapy 填 充 数 据 库 


首先 ， 我 们 需要 一 个 API key。 我 们 可 以 在 Settings 选 项 卡 〈1) 中 找 
到 它 。 复 制 该 值 (2) ， 然 后 单 击 Collections 选 项 卡 (3) 回 到 房产 集合 
中 ， 过 程 如 图 4.3 所 示 。 
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图 4.3 ”使 用 Appery.io 创 建新 数据 库 及 集合 








非常 好 ! 现在 需要 修改 在 第 3 草 中 创建 的 应 用 ， 将 数据 导入 到 
Appery.io 中 。 我 们 先 将 项 目 以 及 名 为 easy 的 爬虫 Ceasy.py) 复制 过 
来 ， 并 将 该 息 虫 重 命名 为 tomobile (tomobile.py) 。 同 时 ， 编 辑 文件 ， 
将 其 名 称 设 为 tomobile。 


$ 1s 
properties scrapy.cfg 
$ cat properties/spiders/tomobile.py 


class ToMobileSpider (CrawlSpider) : 
name = 'tomobile' 
allowed domains = ["scrapybook.s3.amazonaws.com" ] 


# Start on the first index page 

start_urls = ( 
"http: //scrapybook .s3.amazonaws.com/properties/' 
'index 00000.html', 

) 





本 章 代 码 可 以 在 GitHub 的 cno4 目 录 下 找到 。 











你 可 能 已 经 注意 到 的 一 个 问题 是 ， 这 里 并 没有 使 用 之 前 章节 中 用 过 
的 Web 服 务 器 Chttp://web:9312) ， 而 是 使 用 了 该 站 点 的 一 个 公开 可 用 
的 副本 ， 这 是 我 存放 在 http://scrapybook.s3.amazonaws.com 上 的 副 
本 。 之 所 以 在 本 章 中 使 用 这 种 方式 ， 是 因为 这 样 可 以 使 图 片 和 URL 都 能 
够 公开 可 用 ， 此 时 就 可 以 非常 轻松 地 分 享 应 用 了 。 


我 们 将 使 用 Appery.io 的 管道 来 插入 数据 。Scrapy 管 道 通 常 是 一 个 很 
小 的 Python 类 ， 拥 有 后 置 处 理 、 清 理 及 存储 Scrapy Item 的 功能 。 第 8 章 将 
会 更 深入 地 介绍 这 部 分 的 内 容 。 就 目前 来 说 ， 你 可 以 使 用 easy_install 
或 pip 安 装 它 ， 不 过 如 果 你 使 用 的 是 我 们 的 Vagrant dev 机 器 ， 则 无 需 进 
行 任何 操作 ， 因 为 我 们 已 经 将 其 安装 好 了 。 











$ sudo easy_install -U scrapyapperyio 


ay 


$ sudo pip install --upgrade scrapyapperyio 


此 时 ， 你 需要 对 Scrapy 的 主 设 置 文件 进行 一 些小 修改 ， 将 之 前 复制 
的 API key 添 加 进来 。 第 7 章 将 会 更 加 深入 地 讨论 设置 。 现 在 ， 我 们 所 需 
要 做 的 就 是 将 如 下 行 添加 到 properties/settings.py 文 件 中 。 


ITEM PIPELINES = {'scrapyapperyio.ApperyIoPipeline': 300} 


APPERYIO DB ID = '««Your API KEY here>>' 
APPERYIO USERNAME - 'root' 
APPERYIO PASSWORD - 'pass' 
APPERYIO COLLECTION NAME - 'properties' 


AN ESOJRAPPERYIO DB _ID 蔡 换 为 你 的 API key。 此 外 ， 还 需要 
确保 设置 中 的 用 户 名 和 密码 ， 要 和 你 在 Appery.io 中 创建 数据 库 用 户 时 使 
用 的 相同 。 要 想 向 Appery.io 的 数据 库 中 填充 数据 ， 请 像 平常 那样 启动 
scrapy crawl. 


$ scrapy crawl tomobile -s CLOSESPIDER_ITEMCOUNT=90 
INFO: Scrapy 1.0.3 started (bot: properties) 


INFO: Enabled item pipelines: ApperyIoPipeline 
INFO: Spider opened 


DEBUG: Crawled (200) «GET https://api.appery.io/rest/1/db/login?username- 
root&password=pass> 


DEBUG: Crawled (200) <POST https://api.appery.io/rest/1/db/collections/ 
properties> 


INFO: Dumping Scrapy stats: 
{'downloader/response_count': 215, 
'item scraped count': 105, 


INFO: Spider closed (closespider itemcount) 


这 次 的 输出 会 有 些 不 同 。 可 以 看 到 在 最 开始 的 几 行 中 ， 有 一 行 是 用 
于 局 用 ApperyIoPipeline 这 个 Item 管 道 的 ; 不 过 最 明显 的 是 ， 你 会 发 现 
尽管 抓 取 了 100 个 Item， 但 是 却 有 200 次 请 求 / 啊 应 。 这 是 因为 Appery.io 的 
管道 对 每 个 Item 都 执行 了 一 个 到 Appery.io 服 务 端 的 额外 请 求 ， 以 便 写 入 








每 一 个 Item。 这 些 带 有 api.appery.io 这 个 URL 的 请 求 同 样 也 会 在 日 志 中 
出 现 。 


当 回 到 Appery.io 时 ， 可 以 看 到 在 properties 集 合 (1) 中 已 经 填充 好 
了 数据 (2) ， 如 图 4.4 所 示 。 
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图 4.4 ”使 用 数据 填充 properties 集 合 


4.4 创建 手机 应 用 


创建 一 个 新 的 手机 应 用 非常 简单 。 我 们 只 需 单 击 Apps 选 项 卡 
CD ， 然 后 单 击 绿色 的 Create new appixi (2) 。 填 写 应 用 名 称 
为 properties (3) ， 人 然后 单 击 Create 按 钮 进行 创建 就 可 以 了 ， 该 过 程 如 
图 4.5 所 示 。 
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图 4.5 ”创建 新 手机 应 用 及 数据 库 集合 
4.4.1 创建 数据 库 访问 服务 


创建 新 应 用 时 的 选项 数量 可 能 会 有 些 多 。 使 用 Appery.io 的 应 用 编辑 
器 ， 可 以 写 出 复杂 的 应 用 ， 不 过 我 们 将 尽 可 能 保持 事情 简单 。 我 们 最 初 
需要 的 就 是 创建 一 个 服务 ， 能 够 让 我 们 从 应 用 中 访问 Scrapy 数 据 库 。 为 
了 达到 这 一 目的 ， 需 要 单 击 长 方形 的 绿色 按钮 CREATE NEW (5) , 
然后 选择 Database Services (6) 。 这 时 会 弹出 一 个 新 的 对 话 框 ， 让 我 们 
选择 想 要 连接 的 数据 库 。 选 择 scrapy 数 据 库 (7) 。 这 个 沫 单 中 的 大 部 
分 选项 都 不 会 用 到 ， 现 在 只 需要 单 击 展开 properties 区 域 (8) ， 然 后 选 
择 List (9)〉。 在 后 台 ， 它 会 为 我 们 编写 代码 ， 使 得 我 们 使 用 Scrapy 扑 取 
的 数据 可 以 在 网 络 上 使 用 。 最 后 ， 单 击 Import selected services 按 钮 完 
成 (10) 。 


4.4.2 ”创建 用 户 界 面 


下 面 将 要 开始 创建 应 用 所 有 的 可 视 化 元 素 了 ， 这 将 会 使 用 编辑 器 中 
的 DESIGN 选项 卡 来 实现 ， 如 图 4.6 所 示 。 
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图 4.6 ”创建 用 户 界 面 


从 页 面 左 侧 的 树 中 ， 展 开 Pages 文 件 夹 (1) ， 然 后 单 击 
startScreen (2) 。UI 编 辑 右 将 会 打开 该 页 面 ， 我 们 可 以 在 其 中 添加 一 
些 控件 。 下 面 使 用 编辑 器 编辑 标题 ， 以便 对 其 更 加 熟悉 。 单 击 头 部 标题 
(3) ， 然 后 会 发 现 屏幕 右 侧 的 属性 区 域 会 变 为 显示 标题 的 属性 ， 其 中 
包含 一 个 Text 属 性 ， 将 该 属性 值 修改 为 Scrapy App， 屏 幕 中 间 的 标题 也 
会 相应 地 更 新 。 


然后 ， 雷 要 添加 一 个 网 格 组 件 ， 从 左 侧面 板 “5〉 中 拖 忠 Grid 控 件 
即 可 实现 。 该 控件 有 两 行 ， 而 根据 我 们 的 需求 ， 只 需要 一 行 即 可 。 选 择 
刚刚 添加 的 网 格 。 当 手机 视图 顶部 的 缩 略 图 区 域 《6) 变 灰 时 ， 束 可 以 
知道 该 网 格 已 经 被 选取 了 。 如 果 没 有 被 选取 ， 单 击 该 网 格 以 便 选 中 。 然 
后 右 侧 的 属性 栏 会 更 新 为 网 格 的 属性 。 这 里 只 需要 将 Rows 属 性 设置 为 
1， 然 后 单 击 Apply 即 可 (7) 和 (8) 。 现 在 ， 该 网 格 就 会 被 更 新 为 只 有 

了 。 


/一 



































最 后 ， 拖 搜 另 外 一 些 控件 到 网 格 中 。 首 先 要 在 网 格 左 侧 添 加 图 片 控 
fF C90 ， 然 后 在 网 格 右 侧 添 加 链接 (10〉， ， 最 后 在 链接 下 面 添 加 标签 
(11). 








p URS 此 时 已 经 足够 。 接 下 来 将 从 数据 库 中 辐 用 户 界 面 输入 


4.4.8 ”将 数据 映射 到 用 户 界 面 
目前 为 止 ， 我 们 花费 了 大 量 时 间 在 DESIGN 选项 卡 中 ， 以 创建 应 用 


的 可 视 化 效果 。 为 了 将 可 用 的 数据 链接 到 这 些 控件 中 ， 需 要 切换 
到 DATA 选 项 卡 〈1) ， 如 图 4.7 所 示 。 
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图 4.7 将 数据 映射 到 用 户 界面 


选择 Service (2) 作为 数据 源 类 型 。 由 于 前 面 创建 的 服务 是 唯一 可 
用 的 服务 ， 因 此 它 会 被 目 动 选 取 。 然 后 可 以 继续 单 击 Add 按 钮 (3) ， 
此 时 服务 属性 将 会 在 其 下 方 列 出 。 只 要 按 下 了 Add 按 钮 ， 就 会 看 到 像 
Before send 以 及 Success 这 样 的 事件 。 我 们 可 以 通过 单 击 Success 后 面 的 
Mapping 按 钮 ， 定 制服 务 成 功 调 用 后 要 做 的 事情 。 


此 时 会 打开 Mapping action editor， 我 们 可 以 在 这 里 完成 连 线 。 该 
编辑 器 有 两 侧 。 左 侧 是 服务 啊 应 中 可 用 的 字段 ， 而 在 右 侧 中 可 以 看 到 前 
面 步骤 中 添加 的 UI 控 件 的 属性 。 两 侧 都 有 一 个 Expand all 链 接 ， 单 击 该 
链接 可 以 看 到 所 有 可 用 的 数据 和 控件 。 接 下 来 ， 需 要 按照 表 4.2 中 给 出 
的 5 个 映射 ， 从 左 侧 癌 右 侧 拖 电 。 

















4.4.4 数据 库 字 段 与 用 户 界 面 控件 间 映 射 
表 4.2 中 项 的 数量 可 能 会 与 你 Jg 情况 有 些许 差别 ， 不 过 由 于 每 种 控 





件 都 只 有 一 个 ， 因 此 出 错 的 可 能 性 非常 小 。 通 过 设置 这 些 上 映射 ， 我 们 通 
知 Appery.io 在 后 台 编 写 所 有 代码 ， 以 便 在 数据 库 查 询 成 功 时 使 用 数据 库 
中 的 值 加 载 控 件 。 下 面 ， 可 以 单 击 Save and return 按 钮 (6) 继续 。 














此 时 又 回 到 了 DATA 选 项 卡 ， 如 图 4.7 所 示 。 由 于 还 需要 返回 到 UI 编 
辑 器 当中 ， 因 此 需要 单 击 DESIGN 选 项 卡 〈7) 。 在 屏幕 下 方 ， 你 会 发 
现 一 个 EVENTS 区 域 (8) ， 尽 管 该 区 域 一 直 存 在 ， 但 它 刚 刚才 被 展 
开 。 在 EVENTS 区 域 中 ， 我 们 让 Appery.io 做 一 些 事情 ， 作 为 对 UI 事 件 的 
啊 应 。 这 是 我 们 需要 执行 的 最 后 一 个 步骤 。 它 会 让 应 用 在 UI 加 载 完成 后 
立即 调用 服务 取 回 数据 。 为 了 实现 该 功能 ， 我 们 需要 选择 startScreen 作 
为 组 件 ， 并 将 事件 保持 为 默认 的 Load 选 项 。 然 后 选择 Invoke service 作 
为 action， 保 持 Datasource 为 默认 的 restservice1 选 项 (9) 。 最 后 ， 单 击 
Save (10) ， 这 束 是 我 们 为 创建 这 个 手机 应 用 所 做 的 所 有 事情 了 。 


4.4.5 测试 、 分 享 及 导出 你 的 手机 应 用 


现在 ， 可 以 测试 这 个 应 用 了 。 我 们 所 需要 做 的 事情 就 是 单 击 UI 生成 
器 顶部 的 TEST 按钮 (1) ， 如 图 4.8 所 示 。 


























-4d6c-ae8f-2fà 


Refresh Remove frame 240x320 320x 


Scrapy App 


Doubles Oval 
Wapping 
Kensington Day 
Lots South 
Leytonstone 
Warren 


387.78 


Uraent Work Roof 
Flat Porter Dont 


Excellent 
338.98 





set unique family well 


£33439pw 


website court warehouse pool free seven utility 
balham depending cupboard elephant check 
nice bedroom offered 


图 4.8 运行 在 你 浏览 器 中 的 手机 应 用 


手机 应 用 将 会 在 浏览 器 中 运行 。 这 些 链接 都 是 有 效 的 2) ， 可 以 
浏览 。 可 以 预览 不 同 的 手机 屏幕 方案 以 及 设备 方 各 ， 也 可 以 单 击 View 
on Phone 按 钮 ， 此 时 会 显示 一 个 二 维 码 ， 你 可 以 使 用 移动 设备 扫描 该 二 
维 码 ， 并 预览 该 应 用 。 你 只 需 分 训 其 生成 的 链接 ， 其 他 人 也 可 以 在 他 们 
ES] a sant P Se TaN TZ DY. o 


只 需 单 击 几 下 ， 我 们 就 可 以 将 Scrapy 抓 取 的 数据 组 织 起 来 ， 并 展示 
在 手机 应 用 中 。 如 果 你 需要 更 进一步 地 定制 该 应 用 ， 可 以 参考 Appery.io 
提供 的 教程 ， 其 网 址 为 http://devcenter.appery.io/tutorials/。 当 一 
切 准 备 就 绪 时 ， 就 可 以 通过 EXPORT 按 钮 导出 该 应 用 了 ，Appery.io 提 供 
了 非常 丰富 的 导出 选项 ， 如 图 4.9 所 示 。 
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图 4.9 ”你 可 以 将 应 用 导出 到 大 部 分 主流 移动 平台 


你 可 以 导出 项 目 文件 ， 在 自己 喜欢 的 IDE 中 进一步 开 肥 ; 也 可 以 获 
得 二 进 制 文件 ， 发 布 到 各 个 平 合 的 手机 市 场 当中 。 








45 本章 小 结 


使 用 Scrapy 和 Appery.io 这 两 个 工具 ， 我 们 拥有 了 一 个 可 以 抓 取 网 站 
并 且 能 够 将 数据 插入 到 数据 库 中 的 系统 。 此 外 ， 我 们 还 得 到 了 RESTful 
API， 以 及 一 个 简单 的 可 以 用 于 Android 和 ioOS 的 手机 应 用 。 对 于 高 级 特 
性 和 进一步 开发 ， 你 可 以 更 加 深入 到 这 些 平台 中 ， 将 其 中 部 分 开发 工作 
外 包 给 领域 专家 ， 或 是 研究 替代 方案 。 现 在 ， 你 只 需要 最 少 的 编码 ， 就 
能 够 拥有 一 个 可 以 演示 应 用 理念 的 最 小 产品 。 


你 会 注意 到 ， 在 如 此 短 的 开发 时 间 中 ， 我 们 的 应 用 看 起 来 还 不 错 。 
这 是 因为 它 使 用 了 真实 的 数据 ， 而 不 是 占 位 符 ， 并 且 所 有 和 链接 都 是 可 用 
且 有 意义 的 。 我 们 成 功 创建 了 一 个 尊重 其 生态 ( 源 网 站 ) 的 最 小 可 用 产 
品 ， 并 以 流量 的 形式 将 价值 回馈 给 源 网 站 。 


现在 ， 我 们 可 以 开始 学 习 如 何 使 用 Scrapy 欣 虫 在 更 加 复杂 的 场景 下 
抽取 数据 了 。 
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第 3 章 关 注 的 是 如 何 从 页 面 中 抽取 信息 ， 并 将 其 存储 到 Items 中 。 我 
们 所 学 习 的 内 容 已 经 履 辣 了 大 部 分 帝 见 的 Scrapy 用 例 ， 足 够 你 创建 并 运 
行 息 虫 了 。 而 在 本 章 中 ， 我 们 将 看 到 更 多 特殊 的 例子 ， 以 便 让 你 更 加 熟 
悉 Scrapy 的 两 个 最 重要 的 类 Request 和 Response， 即 我 们 在 第 3 章 中 
提 到 的 UR2IM 抓 取 模 型 中 的 两 个 R。 














5.1 需要 登录 的 爬虫 





通常 情况 下 ， 你 会 发 现 自 己 想 要 抽取 数据 的 网 站 存在 登录 机 制 。 大 
部 分 情况 下 ， 网 站 会 要 求 你 提供 用 户 名 和 密码 用 于 登录 。 你 可 以 从 
http://web:9312/dynamic (从 dev 机 器 访问 ) 或 http://localhost:9312/ 
dynamic 《从 答 主 机 浏览 器 访问 找到 我 们 要 使 用 的 例子 。 如 果 使 
用 "user" 作 为 用 户 名 ，"pass" 作 为 密码 的 话 ， 你 就 可 以 访问 到 包含 3 个 房 
Bee 网 页 。 不 过 现在 的 问题 是 ， 要 如 何 使 用 Scrapy 执 行 相同 的 
ARTE? 


让 我 们 使 用 Google ”Chrome 浏览 器 的 开发 者 工具 来 尝试 理解 登录 的 
工作 过 程 〈 见 图 5.1) 。 首 先 ， 打 开 Network 选 项 卡 (ODD 。 然 后 ， 填 写 
用 户 名 和 密码 ， 并 单 击 Login (2) 。 如 果 用 户 名 和 密码 正确 ， 你 将 会 看 
eee 如 果 用 户 名 和 密码 不 匹配 ， 将 会 看 到 一 个 错误 
Y 


NO 
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Es rae rar 
'R 0 Elements | Network | Sources Timeline Profiles Resources Audits Console — | 
l 

i" 6 M Y View & * GPreservelog ODisablecache Nothrotting =v | 
5 an I 

T | B, ae cas () WHR JS CSS Ing Meda Font Doc V 
| 

| 

T X Headers Previc™ Response Cookies Timing | 
* >General ! 
espns rs (4) | 
im ders view source | 
Accept: text/htel, application/xhtm, d 
| 

| 

| 

| 

| 

| 

| 


CORR e eee RW R REE R 








X Headers Preview Response Cookies Timing 


Y General 
Remote Address; 127,0,0,1:9312 
Request URL: http://localhost:9312/dynamic/ login 
Request Method: POST 
Status Code: 302 Found 


Y Response Headers 
Content-Length; 206 
Content-Type; text/htnimmmarset=utf-8 
Date: Wed, 02 Dec 2015 
Location: /dynanic/gated 
Server; Twistedwed/13,2.0 









Y Form Data ce — View URL encoded 
User. user 
pass; pass 


submit: Login 


—€———— N ———— — ——— m em o eee, ee ee 








图 5.1 登录 网 站 时 的 请 求 和 响应 




















当 按 下 Login 按 钮 时 ， 会 在 Google Chrome 浏 览 器 开发 者 工具 的 
Network 选 项 卡 中 看 到 一 个 包含 Request Method: POST 的 请 求 ， 其 日 的 
地 址 为 http://localhost:9312/dynamic/login。 














前 面 章节 中 的 请 求 都 是 GET 类 型 的 请 求 ， 一 般 用 于 获取 不 会 改变 的 数 
据 ， 比 如 简单 的 网 页 、 图 像 等 。 而 POST 类 型 的 请 求 通常 用 于 获取 那些 依赖 于 
传送 给 服务 器 内 容 的 数据 ， 比 如 本 例 中 的 用 户 名 和 密码 。 














当 你 单 击 该 请 求 时 (O30 ， 可 以 看 到 发 送 给 服务 端的 数据 ， 包 括 
Form Data (4) ， 其 中 包含 了 我 们 输入 的 用 户 名 和 密码 。 这 些 数据 都 是 
以 文本 形式 传输 给 服务 端的 。Chrome 浏 览 器 只 是 将 其 组 织 起 来 ， 向 我 
们 更 好 地 显示 这 些 数据 。 服 务 端 的 啊 应 是 302 Found (5) ， 使 我 们 跳 转 
到 一 个 新 的 页 面 : /dynamic/gated. 该 页 面 只 有 在 登录 成 功 后 才 会 出 
现 。 如 果 和 尝试 直接 访问 http://localhost:9312/dynamic/gated， 而 不 输 
入 正确 的 用 户 名 和 密码 的 话 ， 服 务 端 会 及 现 你 在 作 浆 ， 并 跳 转 到 错误 
i, 其 地 址 是 http:// localhost :9312/dynamic/error. 服务 端 是 如 何 
知道 你 和 你 的 密码 的 呢 ? 如 果 你 单 击 开发 者 工具 左 侧 的 gated (6) , a 
会 发 现在 Request Headers 区 域 下 面 (7) 设置 了 一 个 Cookie 值 (8) 。 








HTTP Cookie 是 一 些 服务 端 发 送 给 浏览 器 的 文本 或 数值 ， 通 常 都 很 短 。 
相应 地 ， 浏 览 器 会 在 随后 的 每 个 请 求 中 将 其 返回 给 服务 端 ， 用 于 标识 你 、 用 
户 和 会 话 。 这 样 你 就 可 以 执行 需要 服务 端 状态 信息 的 复杂 操作 了 ， 比 如 购物 
车 里 的 商品 或 你 的 用 户 名 和 密码 。 
































总 之 ， 即 使 是 一 个 单一 的 操作 ， 比 如 登录 ， 也 可 能 涉及 包括 POST 
请 求 和 HTTP 跳 转 的 多 次 服务 端 往返 。Scrapy 能 够 自动 处 理 大 部 分 操 
作 ， 而 我 们 需要 编写 的 代码 也 很 简单 。 


我 们 从 第 3 章 中 名 为 easy 的 谎 虫 开始 ， 创 建 一 个 新 的 疏 虫 ， 命 名 
为 1ogin， 保 留 原 有 文件 ， 并 修改 庚 虫 中 的 name 属 性 (如 下 所 示 ) ， 


class LoginSpider(CrawlSpider): 
name = 'login' 


M | 





本 章 代 码 在 GitHub 的 che5 目 录 下 ， 其 中 本 示例 为 chgos/properties。 


我 们 需要 通过 执行 到 http ://localhost:9312/dynamic/login 的 
POST 请 求 ， 发 送 登 录 的 初始 请 求 。 这 将 通过 Scrapy 的 FormRequest 类 实 
现 该 功能 。 该 类 与 第 3 章 中 使 用 的 Request 类 相似 ， 不 过 该 类 额外 包含 一 
个 formdata 参 数 ， 可 以 使 用 该 参数 传输 表单 数据 〈user 和 pass) 。 要 想 
使 用 该 类 ， 首 先 需 要 引入 如 下 模块 。 


from scrapy.http import FormRequest 


然后 ， 将 start_urls 语 句 蔡 换 为 start_requests() 方 法 。 这 样 做 是 
因为 在 本 例 中 ， 我 们 需要 从 一 些 更 加 定制 化 的 请 求 开始 ， 而 不 仅仅 是 几 
个 URL。 更 确切 地 说 就 是 ， 我 们 从 该 水 数 中 创建 并 返回 一 


个 FormRequest。 





# Start with a login request 
def start_requests(self): 


return [ 
FormRequest ( 
"http://web:9312/dynamic/login", 
formdata={"user": "user", "pass": "pass"} 


虽然 听 起 来 不 可 思议 ， 但 是 crawlspider (Loginspider 的 基 类 ) BX 
认 的 parse() 方 法 确实 处 理 了 Response， 并 且 仍 然 能 够 使 用 第 3 章 中 的 
Rule 和 LinkExtractor。 我 们 只 编写 了 非常 少 的 额外 代码 ， 这 是 因为 
Scrapy 为 我 们 透明 处 理 了 Cookie， 并 且 一 旦 我 们 登录 成 功 ， 就 会 在 后 续 
的 请 求 中 传输 这 些 Cookie， 束 和 浏览 器 执行 的 方式 一 样 。 接 下 来 可 以 像 
平常 一 样 ， 使 用 scrapy crwal 运 行 。 


$ scrapy crawl login 
INFO: Scrapy 1.0.3 started (bot: properties) 





DEBUG: Redirecting (302) to <GET .../gated> from <POST .../login > 
DEBUG: Crawled (200) «GET .../data.php» 
DEBUG: Crawled (200) «GET .../property 000001.html» (referer: .../data. 
php) 
DEBUG: Scraped from «200 .../property 000001.html» 
{'address': [u'Plaistow, London'], 
'date': [datetime.datetime(2015, 11, 25, 12, 7, 27, 120119)], 
'description': [u'features'], 
'image urls': [u'http://web:9312/images/i02.jpg'], 


INFO: Closing spider (finished) 
INFO: Dumping Scrapy stats: 


'downloader/request method count/GET': 4, 
'downloader/request method count/POST': 1, 


'item scraped count': 3, 


我 们 可 以 在 日 志 中 看 到 从 dynamic/1login 到 dynamic/gated 的 跳 转 ， 
然后 束 会 像 平时 那样 抓 取 Item 了。 在 统计 中 ， 可 以 看 到 1 个 POST 请 求 和 
4 个 GET 请 求 (一 个 是 前 往 dynamic/gated 索 引 页 ， 男 外 3 个 是 房产 页 
fl) . 

















本 例 中 ， 我 们 没有 保护 房产 页 面 本 身 ， 而 古 只 保护 了 到 这 些 页 面 的 链 
接 。 无 论 哪 种 情况 ， 前 面 的 代码 都 是 适用 的 。 






































如 果 使 用 了 错误 的 用 户 名 和 和 密码， 将 会 跳 转 到 一 个 没有 任何 项 目的 
页 面 ， 并 且 此 时 礁 取 过 程 会 被 终止 ， 如 下 面 的 执行 情况 所 示 。 


$ scrapy crawl login 
INFO: Scrapy 1.0.3 started (bot: properties) 


DEBUG: Redirecting (302) to <GET .../dynamic/error > from <POST .../ 
dynamic/login» 
DEBUG: Crawled (200) «GET .../dynamic/error> 


INFO: Spider closed (closespider itemcount) 


这 是 一 个 简单 的 登录 示例 ， 用 于 演示 基本 的 登录 机 制 。 大 多 数 网 站 
都 会 拥有 一 些 更 加 复杂 的 机 制 ， 不 过 Scrapy 也 都 能 够 轻松 处 理 。 比 如 ， 
一 些 网 站 要 求 你 在 执行 POST 请 求 时 ， 将 表单 页 中 的 某 些 表单 变量 传输 
到 登录 页 ， 以 便 确 认 Cookie 是 启用 的 ， 同 样 也 会 让 你 在 尝试 暴力 破解 成 
a 图 5.2 所 示 即 为 此 种 情况 的 一 
SAN Pl. 








| | Welcome x 


€ — C | localhost:9312/dynamic/nonce 


Welcome, please login 


Username 
Password 


Login 


民 D] | Elements | Network Sources Timeline Profiles Resourct 


<html> 
> <head>..</head> 
Y <body> 
«hl»Welcome, please loginc/hl» 
Y «form method="post" action-"/dynamic/nonce-login' > 
b <p>..</p> 
b «p»..c/p» 
b «p class-" submit »..«/p» 
input type="hidden’ name="nonce’ value- 0.0179961813547 





</form> 
</body> 
</html> 


图 5.2 ”使 用 一 次 性 随机 数 的 一 个 更 加 高 级 的 登录 示例 的 请 求 和 响应 情况 


c 





比如 ， 当 访 问 http://localhost:9312/dynamic/nonce 时 ， 你 会 看 到 
一 个 看 起 来 一 样 的 页 面 ， 但 是 当 使 用 Chrome 浏 览 器 的 开发 者 工具 得 看 
时 ， 会 发 现 页 面 的 表单 中 有 一 个 叫 作 nonce 的 隐藏 字段 。 当 提交 该 表单 
时 (提交 到 http://Localhost:9312/ dynamic/nonce-login) ， 除非 你 既 
传输 了 正确 的 用 户 名 /密码 ， 又 提交 了 服务 端 在 你 访问 该 登录 页 时 给 你 
的 nonce 值 ， 否 则 登录 不 会 成 功 。 你 无 法 猜测 该 值 ， 因 为 它 通 常 是 随机 
且 一 次 性 的 。 这 就 表示 要 想 成 功 登录 ， 现 在 就 需要 请 求 两 次 了 。 你 必须 
先 访 问 表单 页 ， 然 后 再 访问 登录 页 传输 数据 。 当 然 ，Scrapy 同 样 拥有 内 
置 函数 可 以 帮助 我 们 实现 这 一 目的 。 


我 们 创建 了 一 个 和 之 前 相似 的 NonceLoginspider 爬 虫 。 现 在 ， 
在 start_requests() 中 ， 将 返回 一 个 简单 的 Request (ARIS AR 
块 ) 到 表单 页 面 中 ， 并 通过 设置 其 callback 属 性 为 处 理 方法 
parse_welcome() 手 动 处 理 啊 应 。 在 parse_welcome() 中 ， 使 用 了 
FormRequest 对 象 的 辅助 方法 from_response()， 以 创建 从 原始 表单 中 预 
填充 所 有 字段 和 值 的 FormRequest 对 象 。 FormRequest.from response() 
粗略 模拟 了 一 次 在 页 面 的 第 一 个 表单 上 的 提交 单 击 ， 些 时 所 有 字段 留 
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花费 一 些 时 间 让 自己 熟悉 from_response() 的 文档 是 值得 的 。 它 有 很 多 
非常 有 用 的 功能 ， 如 formname 和 formnumber 可 以 帮助 你 在 拥有 多 个 表单 的 页 
面 上 选择 其 中 茶 个 表单 。 
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和 pass 字 段 以 及 返回 FormRequest。 下 面 是 其 相关 代码 。 


# Start on the welcome page 
def start_requests(self): 
return [ 
Request ( 
"http://web:9312/dynamic/nonce", 
callback-self.parse welcome) 


] 


# Post welcome page's first form with the given user/pass 
def parse welcome(self, response): 
return FormRequest.from response( 
response, 
formdata={"user": "user", "pass": "pass"? 


) 
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$ scrapy crawl noncelogin 
INFO: Scrapy 1.0.3 started (bot: properties) 


DEBUG: Crawled (200) <GET .../dynamic/nonce> 


DEBUG: Redirecting (302) to <GET .../dynamic/gated > from <POST ... 


dynamic/login-nonce» 
DEBUG: Crawled (200) «GET .../dynamic/gated> 


INFO: Dumping Scrapy stats: 
{ 


'downloader/request method count/GET': 5, 
'downloader/request method count/POST': 1, 


'item scraped count': 3, 


可 以 看 到 ， 第 一 个 GET 请 求 前 往 /dynamic/nonce 页 面 ， 


然后 是 POST 


请 求 ， 跳 转 到 /dynamic/nonce-login 页 面 ， 之 后 像 前 面 的 例子 一 样 跳 转 
到 /dynamic/vgated 页 面 。 关于 登录 的 讨论 就 到 这 里 。 该 示例 使 用 两 个 步 
又 完成 登录 。 只 要 你 有 足够 的 耐心 ， 就 可 以 形成 任意 长 链 ， 来 执行 几乎 


所 有 的 登录 操作 。 


5.2 ”使 用 JSON API 和 AJAX 页 面 的 疏 虫 





有 了 时， 你 会 发 现 自己 在 页 面 寻找 的 数据 无 法 从 HTML 页 面 中 找到 。 
比如 ， 当 访问 http://localhost:9312/static/ 时 ( 见 图 5.3) ， 在 页 面 任 
意 位 置 右键 单 击 inspect element (1，2) ， 可 以 看 到 其 中 包含 所 有 常见 
HTML 元 素 的 DOM 树 。 但 是 ， 当 你 使 用 scrapy shel1 请 求 ， 或 是 在 
Chrome 浏 览 器 中 右键 单 击 View Page Source (3, 4) 时 ， 则 会 发 现 该 页 
面 的 HIML 代 码 中 并 不 包含 关于 房产 的 任何 信息 。 那 么 ， 这 些 数据 是 从 
哪里 来 的 呢 ? 
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图 5.3 ”动态 加 载 JSON 对 象 时 的 页 面 请 求 与 响应 


与 平常 一 样 ， 遇 到 这 类 例子 时 ， 下 一 步 操作 应 当 是 打开 Chrome 浏 
览 句 开发 者 工具 的 Network 选 项 卡 ， 来 看 看 发 生 了 什么 。 在 左 侧 的 列表 
中 ， 可 以 看 到 加 载 本 页 面 时 Chrome 执 行 的 请 求 。 在 这 个 简单 的 页 面 
中 ， 只 有 3 个 请 求 :static/ 是 刚才 已 经 检查 过 的 请 求 ，jquery.min.js 用 于 
获取 一 个 流行 的 Javascript 框 架 的 代码 ;而 apijson 看 起 来 会 让 我 们 产生 
兴趣 。 当 单 击 该 请 求 (6) ， 并 单 击 右 侧 的 Preview 选 项 卡 〈7) IN, Wè 
会 发 现 这 里 面包 含 了 我 们 正在 寻找 的 数据 。 实 际 
上 ，http://Localhost:9312/properties/api.json 包 含 了 房产 的 ID 和 名 
PK (8) ， 如 下 所 示 。 





[t 

"id": 0, 

"title": "better set unique family well" 
ixi, 

"id": 29, 

"title": "better portered mile" 
3] 


这 是 一 个 非常 简单 的 JSON API 的 示例 。 更 复杂 的 API 可 能 需要 你 登 
录 ， 使 用 POST 请 求 ， 或 返回 更 有 趣 的 数据 结构 。 无 论 在 哪 种 情况 下 ， 
JSON 都 是 最 简单 的 解析 格式 之 一 ， 因 为 你 不 需要 编写 任何 XPath 表达 式 
就 可 以 从 中 抽取 出 数据 。 


Python 提供 了 一 个 非常 好 的 JSON 解 析 库 。 当 我 们 执行 import json 
时 ， 就 可 以 使 用 json.1loads(response.body) 解 析 JSON， 将 其 转换 为 由 
Python 原 语 、 列 表 和 字典 组 成 的 等 效 Python 对 象 。 


我 们 将 第 3 章 的 manual.py 找 贝 过 来 ， 用 于 实现 该 功能 。 在 本 例 中 ， 
这 是 最 佳 的 起 始 选 项 ， 因 为 我 们 需要 通过 在 JSON 对 象 中 找到 的 ID， 手 
动 创 建 房产 URL 以 及 Request 对 象 。 我 们 将 该 文件 重 命 名 为 api.py， 并 
将 仆 虫 类 重合 名 为 Apispider，name 属 性 修改 为 api。 新 的 start_urls 将 
会 是 JSON API 的 URL， 如 下 所 示 。 





start_urls = ( 
"http://web:9312/properties/api.json', 
) 





如 果 你 想 执行 POST 请 求 ， 或 是 更 复杂 的 操作 ， 可 以 使 用 前 一 节 中 
介绍 的 start_requests() 方 法 。 此 时 ， Scrapy 将 会 打开 该 URL， 并 调用 
包含 以 Response 为 参数 的 parse() 方 法 。 可 以 通过 import json， 使 用 如 
下 代码 解析 JSON 对 象 。 


def parse(self, response): 
base_url = "http://web:9312/properties/" 
js = json.loads(response. body) 
for item in js: 
id = item["id"] 
url = base url + "property_%06d.html" % id 
yield Request(url, callback=self.parse_item) 


前 面 的 代码 使 用 了 json.loads(response.body)， 将 Response 这 个 
JSON 对 象 解析 为 Python 列表 ， 然 后 欠 代 该 列表 。 对 于 列表 中 的 每 一 
项 ， 我 们 将 URL 的 3 个 部 分 (base_url1、property_%06d 以 及 .html1) 组 合 
到 一 起 。base_url 是 在 前 面 定义 的 URL 前 级 。%e66d 是 Python 语 法 中 非常 
有 用 的 一 部 分 ， 它 可 以 让 我 们 结合 Python 变量 创建 新 的 字符 串 。 在 本 例 
中 ，%66d 将 会 被 变量 id 的 值 蔡 换 《〈 本 行 结尾 处 % 后 面 的 变量 ) 。id 将 会 
被 视 为 数字 〈%d 表 示 视 为 数字 ) ， 并 且 如 果 不 满 6 位 ， 则 会 在 前 面 加 上 
0， 扩 展 成 6 位 字符 。 比 如 ，id 值 为 5，%66d 将 会 被 蔡 换 为 000005， 而 如 
果 id 为 34322，%066d 则 会 被 替换 为 034322。 最 终结 果 正 是 我 们 房产 页 面 
的 有 效 URL。 我 们 使 用 该 URL 形 成 一 个 新 的 Request 对 象 ， 并 像 第 3 章 一 
样 使 用 yield。 然 后 可 以 像 平 时 那样 使 用 scrapy crawl 运 行 该 示例 。 


$ scrapy crawl api 
INFO: Scrapy 1.0.3 started (bot: properties) 








DEBUG: Crawled (200) «GET ...properties/api.json» 
DEBUG: Crawled (200) «GET .../property 000029.html» 


INFO: Closing spider (finished) 
INFO: Dumping Scrapy stats: 


'downloader/request count': 31, ... 
'item scraped count': 30, 


你 可 能 会 注意 到 结尾 处 的 状态 是 31 个 请 求 一 一 每 个 Item 一 个 请 求 ， 
以 及 最 初 的 api.json 的 请 求 。 


5.2.1 在 啊 应 间 传 参 


很 多 情况 下 ， 在 JSON ”API 中 会 有 感 兴趣 的 信息 ， 你 可 能 想 要 将 它 


们 存储 到 Item 中。 在 我 们 的 示例 中 ， 为 了 演示 这 种 情况 ，JSON API 会 在 
给 定 房产 信息 的 标题 前 面 加 上 "better"。 比 如 ， 房 产 标题 是 "Covent 
Garden"，API 就 会 将 标题 写 为 "Better Covent Garden"。 假 设 我 们 想 要 将 
这 些 "better" 开 头 的 标题 存储 到 Items 中 ， 要 如 何 将 信息 从 parse() 方 法 传 
递 到 parse_item() 方 法 呢 ? 


个 要 感到 尺 讶 ， 过 在 parse() 生 成 的 Request 中 设置 一 些 东西 ， 就 
能 实现 该 功能 。 之 后 ， item( ) 接 收 到 的 Response 中 取得 这 
些 信息 。 — 个 名 为 meta 的 字典 ， 能 够 直接 访问 Response。 比 如 
oak 可 以 在 该 字典 中 设置 标题 值 ， 以 存储 来 自 JSON 对 象 
JERE o 


title = item["title"] 
yield Request(url, meta={"title": title},callback=self.parse_item) 





在 parse_item() 内 部 ， 可 以 使 用 该 值 奉 代 之 前 使 用 过 的 XPath 表达 
Bate 
l.add value('title', response.meta['title'], 
MapCompose(unicode.strip, unicode.title)) 


你 会 发 现 我 们 不 再 调用 add_xpath()， 而 是 转 为 调用 add_value( )， 
这 是 因为 我 们 在 该 字段 中 将 不 会 再 使 用 到 任何 XPath 表达 式 。 现 在 ， 可 
以 使 用 scrapy craw1 运 行 这 个 新 的 不 虫 ， 并 且 可 以 在 PropertyItems 中 看 
到 来 自 api.json 的 标题 。 





5.3 30 倍速 的 房产 爬虫 


有 这 样 一 种 趋势 ， 当 你 开始 使 用 一 个 框架 时 ， 做 任何 事情 都 可 能 会 
使 用 最 复杂 的 方式 。 你 在 使 用 Scrapy 时 也 会 发 现 自己 在 做 这 样 的 事情 。 
在 疯狂 于 XPath 等 技术 之 前 ， 值 得 停 下 来 想 一 想 : 我 选择 的 方式 是 从 网 
站 中 抽取 数据 最 简单 的 方式 吗 ? 


如 果 你 能 从 索引 页 中 抽取 出 基本 相同 的 信息 ， 就 可 以 避免 抓 取 每 个 
房 源 页 ， 从 而 得 到 数量 级 的 提升 。 


4! 














请 记 住 ， 很 多 网 站 在 其 索引 页 中 提供 了 不 同 的 项 目 数量 选择 。 比 如 ， 
一 个 网 站 可 能 允许 你 通过 调整 参数 指定 每 个 索引 页 显示 的 房 源 数 是 10、50 还 
是 100， 如 &show=56。 显 然 ， 如 果 是 这 样 的 情况 ， 就 可 以 将 该 参数 设置 为 允许 
的 最 大 值 。 























比如 ， 在 房产 示例 中 ， 我 们 所 需要 的 所 有 信息 都 存在 于 索引 页 中 ， 
包括 标题 、 描 述 、 价 格 和 图 片 。 这 就 意味 着 只 抓 取 一 个 索引 页 ， 就 能 抽 
取 其 中 的 30 个 条 目 以 及 前 往 下 一 页 的 链接 。 通 过 疏 取 100 个 索引 页 ， 我 
ee 而 不 是 3000 个 请 求 ， 束 能 够 得 到 3000 个 条 目 。 太 
ET! 


在 真实 的 Gumtree 网 站 中 ， 索 引 页 的 描述 信息 要 比 列 表 页 中 完整 的 
描述 信息 稍 短 一 坚 。 个 过 此 时 这 种 抓 取 方 式 可 能 也 古 可 行 的 ， 甚 全 世 能 
令 人 满意 。 











在 许多 情况 下 ， 我 们 将 不 得 不 权衡 数据 质量 与 


























请 





求 数量 的 关系 。 很 多 





源 都 会 限制 大 量 的 请 求 〈 后 续 章 节 会 遇 到 更 多 此 类 问题 ) ， 因 此 在 索引 中 获 


取 也 可 能 帮助 我 们 解决 其 他 难题 。 





在 我 们 的 例子 中 ， 妆 查看 任何 一 个 索引 页 的 HTML 代 码 时 ， 束 会 友 











现 索 引 页 中 的 每 个 房 源 都 有 其 自己 的 生态 ， 并 使 


用 itemtype="http://schema.org/Product" 来 表示 。 在 该 节点 中 ， 我 们 
拥有 与 详情 页 完全 相 同 的 方式 为 每 个 属性 注解 的 所 有 信息 ， 如 图 5.4 所 
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Earls Court, London 





work Sources Timeline Profiles Resources Audits Console 
qu 
Ydb 







«article class="listing-maxi" itenscope itemtypez http: //schema, org/Product" . Jz ad-featüred-105 
qu 
yeli 


Vearticle class="listing-naxi" itenscopegitentype="http://schena,org/Product" Dd="ad-featured-104! 
‘before 


Ja Class="Listing=Link" hrefz"/p/ ual Ramil y a A a P^ €. 
aru "sum" itenprop-" url» 
‘before 
><div class="Listing-side">,</div> 
Y 


<h class="listing-title' itemprop= nane >.</h2> 


P «p class="Listing-description truncate-paragraph 
hide-fully-to-n" itenprop="description’ »,«/p» 
<ul class="Listing-attributes inline-List hide-fully-to-».«/ub 





><div class="Listing-location” itenscope itentype="http://schema,org/Place">.</div> 
«strong class="Listing-price txt-enphasis" itenprop="price">£270pw</strong> 





图 5.4 ”从 单一 索引 页 抽取 多 个 房产 信息 


我 们 在 Scrapy shell 中 加 载 第 一 个 索引 页 ， 并 使 用 XPath 表达 式 进行 
测试 。 


$ scrapy shell http://web:9312/properties/index 00000.html 


在 Scrapy shell 中 ， 尝 试 选取 所 有 市 有 Product 标 签 的 内 容 : 


>>> p=response.xpath('//*[@itemtype="http://schema.org/Product"]') 
>>> len(p) 


30 

>>> p 

[<Selector xpath='//*[@itemtype="http://schema.org/Product"]' data=u'<1li 
class="listing-maxi" itemscopeitemt'...] 


可 以 看 到 我 们 得 到 了 一 个 包含 30 个 selector 对 象 的 列表 ， 每 个 对 象 
指 癌 一 个 房 源 。 在 某 种 意义 上 ，Selector 对 象 与 Response 对 象 有 些 相 
似 ， 我 们 可 以 在 其 中 使 用 XPath 表达 式 ， 并 且 只 从 它们 指向 的 地 方 获取 
信息 。 唯 一 需要 说 明 的 是 ， 这 些 表 达 式 应 该 是 相对 XPath 表达 式 。 相 对 
XPath 表达 式 与 我 们 之 前 看 到 的 基本 一 样 ， 不 过 在 前 面 增加 了 一 个 .点 
号 。 举 例 说 明 ， 让 我 们 看 一 下 使 用 .//*[@itemprop="name"][1]/text() 
这 个 相对 XPath 表达 式 ， 从 第 4 个 房 源 抽取 标题 时 是 如 何 工 作 的 。 


>>> selector = p[3] 

>>> selector 

«Selector xpath='//* [@itemtype="http://schema.org/Product"]' ... '> 
>>> selector.xpath('.//*[@itemprop="name"][1]/text()').extract() 
[u'l fun broadband clean people brompton european’ J 


可 以 在 selector 对 象 的 列表 中 使 用 for 循 环 ， 抽 取 索 引 页 中 全 部 30 


个 条 目的 信息 。 


为 了 实现 该 目的 ， 我 们 再 一 次 从 第 3 章 的 manual.py 痢 手 ， 将 爬虫 重 
命名 为 "fast"， 并 重 命名 文件 为 fast.py。 我 们 将 复 用 大 部 分 代码 ， 只 
在 parse() 和 parse_items() 方 法 中 进行 少量 修改 。 最 新 方法 的 代码 如 


o 





def parse(self, response): 
# Get the next index URLs and yield Requests 
next sel = response.xpath('//*[contains(Qclass, "next")]//Qhref ' ) 


for url in next_sel.extract(): 
yield Request(urlparse.urljoin(response.url, url)) 


# Iterate through products and create PropertiesItems 
selectors = response. xpath( 

'//* [@itemtype="http://schema.org/Product"]' ) 
for selector in selectors: 

yield self.parse_item(selector, response) 


在 代码 的 第 一 部 分 中 ， 对 前 往 下 一 个 索引 页 的 Request 的 yield 操 作 
的 代码 没有 变化 。 唯 一 改变 的 内 容 在 第 二 部 分 ， 不 再 使 用 yield 为 每 个 
详情 页 创建 请 求 ， 而 是 迭代 选择 器 并 调用 parse_item()。 其 
中 ，parse_item( ) 的 代码 也 和 原始 代码 非常 相似 ， 如 下 所 示 。 


def parse_item(self, selector, response): 
# Create the loader using the selector 
l = ItemLoader(item=PropertiesItem(), selector-selector) 


# Load fields using XPath expressions 


l.add xpath('title', './/*[@itemprop="name"][1]/text()', 
MapCompose(unicode.strip, unicode.title)) 
l.add xpath('price', './/*[Qitemprop-"price"][1]/text()', 


MapCompose(lambda i: i.replace(',', ''), float), 
re-'[,.0-9]*') 
l.add xpath('description', 
'.//* [@itemprop="description"][1]/text()', 
MapCompose(unicode.strip), Join()) 
l.add xpath('address', 
'.//* [Qitemtype-z"http://schema.org/Place"]' 
'[1]/*/text()', 
MapCompose(unicode.strip)) 
make url - lambda i: urlparse.urljoin(response.url, i) 
l.add xpath('image urls', './/*[@itemprop="image"][1]/@src', 
MapCompose(make url)) 


# Housekeeping fields 

l.add xpath('url', './/*[Qitemprop-"url"][1]/Qhref', 
MapCompose(make url)) 

.add value('project', self.settings.get('BOT NAME')) 

.add value('spider', self.name) 

.add value('server', socket.gethostname()) 

.add value('date', datetime.datetime.now()) 


a 


return 1.load_item() 


我 们 所 做 的 细微 变更 如 下 所 示 。 


e ItemLoader 现 在 使 用 selector 作 为 源 ， 而 不 再 是 Response。 这 
是 ItemLoader API 一 个 非常 便捷 的 功能 ， 能 够 让 我 们 从 当前 选取 的 
部 分 《而 不 是 整个 页 面 ) 抽取 数据 。 


e XPath 表达 式 通过 使 用 前 绥 点 号 〈.) 转 为 相对 XPath。 





比较 巧合 的 是 ， 在 我 们 的 例子 中 ， 索 引 页 和 详情 页 中 的 XPath 表达 式 是 
一 样 的。 实际 情况 并 不 总 是 这 样 ， 你 可 能 需要 重新 开发 XPath 表达 式 ， 以 匹配 
索引 页 的 结构 。 

















H 





e 我 们 必须 自己 编辑 Item 的 UREL。 之 前 ，response.url 已 经 给 出 了 房 
源 页 的 UREL。 而 现在 ， 它 给 出 的 是 索引 页 的 URL， 因 为 该 页 面 才 是 
我 们 要 疏 取 的 。 我 们 需要 使 用 熟悉 的 .//*[@itemprop="url"] 
[1]/@href 这 个 XPath 表 达 式 抽取 出 房 源 的 URL， 然 后 使 
用 Mapcompose 处 理 器 将 其 转换 为 绝对 URL。 


小 的 改变 能 够 节省 巨大 的 工作 量 。 现 在 ， 我 们 可 以 使 用 如 下 代码 运 
TZEE. 


$ scrapy crawl fast -s CLOSESPIDER_PAGECOUNT=3 





INFO: Dumping Scrapy stats: 
'downloader/request_count': 3, ... 
'item_scraped_count': 90,... 


和 预期 一 样 ， 只 用 了 3 个 请 求 ， 束 抓 取 了 90 个 条 日。 如 果 我 们 没有 
在 索引 页 中 获取 到 的 话 ， 则 需要 93 个 请 求 。 这 种 方式 太 明 智 了 ! 


如 条 你 想 使 用 scrapy parse 进 行 调试 ， 那 么 现在 必须 设置 spider 参 
数 ， 如 下 所 示 。 


$ scrapy parse --spider-fast http://web:9312/properties/index 00000.html 





>>> STATUS DEPTH LEVEL 1 <<< 
# Scraped Items -------------------------------------------- 
[{'address': [u'Angel, London'], 

. 30 items... 
# Requests --------------------------------------------------- 
[<GET http://web:9312/properties/index 00001.html»] 


正如 期 望 的 那样 ，parse() 返 回 了 36 个 Item 以 及 一 个 前 往 下 一 索引 
页 的 Request。 请 使 用 scrapy parse 随 意 试 验 ， 比 如 传输 - -depth=2。 


5.4 基于 Excel 文 件 爬 取 的 爬虫 


大 多 数 情况 下 ， 每 个 源 网 站 只 会 有 一 个 爬虫 ; 不 过 在 东 些 情况 下 ， 
你 想 要 抓 取 的 数据 来 目 多 个 网 站 ， 此 时 唯一 变化 的 东西 就 是 所 使 用 的 
XPath 表达 式 。 对 于 此 类 情况 ， 如 果 为 每 个 网 站 都 使 用 一 个 爬虫 则 显得 
有 些小 题 大 做 。 那 么 可 以 只 使 用 一 个 礁 虫 来 肘 取 所 有 这 些 网 站 吗 ? 答案 


Aik», 


是 肯定 的 。 


让 我 们 为 该 实验 创建 一 个 新 的 候 忠 ， 因 为 这 次 扑 取 的 条 目 会 和 之 前 
区 别 很 大 (实际 上 我 们 还 没有 在 该 项 目 中 定义 任何 东西 ! ) 。 假 设 此 时 
—— 让 我 们 向 上 一 层 ， 如 下 面 的 代码 所 示 进 
行 操 作 。 





pw 
/root/book/ch05/properties 
$ cd .. 


$ pwd 
/root/book/ch05 


ATEN f —^^ 44 7JgenericH jr MH, E — 4 4A Zgfromcsv I] 


$ scrapy startproject generic 
$ cd generic 
$ scrapy genspider fromcsv example.com 


现在 ， 创 建 一 个 .csv 文 件 ， 其 中 包含 想 要 抽取 的 信息 。 可 以 使 用 一 
个 电子 表格 程序 ， 比 如 Microsoft Excel， 来 创建 这 个 .csv 文 件 。 填 入 如 
图 5.5 所 示 的 几 个 URL 和 XPath 表达 式 ， 然 后 将 其 命名 为 todo.csv， 保 存 
到 疏 虫 目录 当中 《〈scrapy.cfg 所 在 目录 ) 。 要 想 保存 为 .csv 文 件 ， 需 要 
在 保存 对 话 框 中 选择 CSV 文 件 (Windows) 作为 文件 格式 。 


— 
pit 

Iit! presun tes 
^ Dnstrone tet 

















图 5.5 ”包含 URL 和 XPath 表达 式 的 todo.csv 


很 好 ! 如 果 一 切 都 已 就 绪 ， 你 融 可 以 在 终端 上 看 到 该 文件 。 


$ cat todo.csv 

url,name, price 
a.htm1,"//*[Qid-""itemTitle""]/text()","//*[Qid-""prcIsum""]/text()" 
b.htm1, //h1/text(), //span/strong/text () 

c.htm1, "//* [@id=""product-desc""]/span/text()" 


Python 有 一 个 用 于 处 理 .csv 文 件 的 内 置 库 。 只 需 通过 import csv 
入 模块 ， 然后 就 可 以 使 用 如 下 这 些 直 截 了 当 的 代码 ， 以 字典 的 形式 读 取 
LE 在 当前 目录 下 打开 Python 提示 符 ， 就 可 以 尝试 如 下 
尺码 。 


$ pwd 
/root/book/ch05/generic2 
$ python 
>>> import csv 
>>> with open("todo.csv", "rU") as f: 
reader - csv.DictReader(f) 
for line in reader 
print line 





文件 中 的 第 一 行 会 被 自动 作为 标题 行 处 理 ， 并 且 会 根据 它们 得 出 字 
典 中 键 的 名 称 。 在 接 下 来 的 每 一 行 中 ， 会 得 到 一 个 包含 行内 数据 的 字 
eee 当 运 行 前 面 的 代码 时 ， 可 以 得 到 如 下 
A EE o 








{'url': ' http://a.html', 'price': '//*[@id="prcIsum"]/text()', 
'name': '//*[@id="itemTitle"]/text()'} 


{'url': ' http://b.html', 'price': '//span/strong/text()', 'name': '// 
hi/text()') 
{'url': ' http://c.html', 'price': '', 'name': '//*[Qid-"product- 


desc"]/span/text()'3 


JR. XXE. np UAfRÉIgeneric/spiders/fromcsv.pyiX T Jf& 4 
了 。 我 们 将 会 用 到 .csv 文 件 中 的 URL， 并 且 不 希望 有 任何 域名 限制 。 
此 ， 首 先 要 做 的 事情 就 是 移 除 start_urls 以 及 allowed_domains， 然 后 读 
取 .csv 文 件 。 


由 于 我 们 事先 并 不 知道 想 要 起 始 的 URL， 而 是 从 文件 中 读 取 得 到 
的 ， 因 此 需要 实现 一 个 start_requests() 方 法 。 对 于 每 一 行 ， 创 建 
Request， 然 后 对 其 进行 yie1ld 操 作 。 此 外 ， 还 会 在 reqeust .meta 中 存储 
来 自 csv 文 件 的 字段 名 称 和 XPath 表 达 式 ， 以 便 在 parse( K hEN E 
们 。 然 后 ， 使 用 Item 和 ItemLoader 填 充 Item 的 字段 。 下 面 是 完整 的 代 
fU. 








import csv 

import scrapy 

from scrapy.http import Request 

from scrapy.loader import ItemLoader 
from scrapy.item import Item, Field 


class FromcsvSpider(scrapy.Spider): 
name = "fromcsv" 


def start_requests(self): 
with open("todo.csv", "rU") as f: 
reader = csv.DictReader(f) 
for line in reader: 
request = Request(line.pop('url')) 
request.meta['fields'] - line 
yield request 


def parse(self, response): 
item - Item() 
l - ItemLoader(item-item, response-response) 
for name, xpath in response.meta['fields'].iteritems(): 
if xpath: 
item.fields[name] - Field() 
l.add xpath(name, xpath) 
return 1.load_item() 


Be PORT ORME, JETER RU Slout .csv 文 件 中 。 


$ scrapy crawl fromcsv -o out.csv 
INFO: Scrapy 0.0.3 started (bot: generic) 


DEBUG: Scraped from «200 a.html» 

('name': [u'My item'], 'price': [u'128']} 
DEBUG: Scraped from «200 b.html» 

('name': [u'Getting interesting'], 'price': [u'300']} 
DEBUG: Scraped from «200 c.html» 

{'name': [u'Buy this now']} 

INFO: Spider closed (finished) 

$ cat out.csv 

price,name 

128,My item 

300,Getting interesting 

,Buy this now 
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在 代码 中 ， 你 可 能 已 经 注意 到 了 几 个 事情 。 由 于 我 们 没有 为 该 项 目 
定义 系统 范围 的 Item， 因 此 必须 像 如 下 代码 这 样 手动 为 TtemLoader 提 
供 。 





item = Item() 
1 = ItemLoader(item=item, response=response) 


此 外 ， 我 们 还 使 用 了 Item 的 成 员 变 量 fields 动 态 添加 字段 。 为 了 能 
够 动态 添加 新 字段 ， 并 通过 ItemLoader 对 其 进行 填充 ， 需 要 实现 的 代码 
如 下 。 


item.fields[name] = Field() 
l.add xpath(name, xpath) 





最 后 ， 还 可 以 使 代码 更 加 好 看 。 硬 编码 todo.csv 文 件 名 不 是 一 个 非 
种 好 的 实践 。Scrapy 提 供 了 一 个 非常 便捷 的 方法 ， 用 于 传输 参数 到 爬虫 
当中 。 当 传输 一 个 命令 行 参 数 -a 时 《比如 : -a variable=value) , WS 
为 我 们 设置 一 个 怜 虫 属性 ， 并 且 可 以 通过 self.variable 取 得 该 值 。 为 
了 检查 变量 ， 并 在 未 提供 该 变量 时 使 用 默认 值 ， 可 以 使 用 Python 的 
getattr() 方 法 : getattr(self, 'variable', 'defaujlt')。 总 之 ， 我 们 


将 原来 的 with open.. 语 句 奉 换 为 如 下 语句 。 


with open(getattr(self, "file", "todo.csv"), "rU") as f: 





现在 ， 除 非 明确 使 用 -a 参 数 设置 源 文 件 名 ， 人 否则 将 会 使 用 todo,csv 


作为 其 默认 值 。 当 给 出 另 一 个 文件 another_todo.csv 时 ， 可 以 按 如 下 方 
式 运行 。 


$ scrapy crawl fromcsv -a file=another_todo.csv -o out.csv 
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本 章 深 入 讨论 了 Scrapy 扑 虫 的 内 部 机 制 。 我 们 学 习 了 使 
用 FormRequest 进 行 登 录 ， 使 用 Request/Response 的 meta 属 性 传输 变量 ， 
使 用 相对 XPath 表达 式 和 selector， 以 及 使 用 .csv 文 件 作 为 源 等 。 


接 下 来 ， 第 6 章 会 讲解 如 何 将 爬虫 部 普 到 Scrapinghub 云 上 ， 第 7 重 将 
继续 深入 Scrapy 的 设置 。 


第 6 章 ”部 署 到 Scrapinghub 


在 前 面 的 几 间 中 ， 我 们 了 解 了 如 何 开 发 Scrapy 扑 虫 。 当 我 们 对 息 虫 
的 功能 感到 满意 时 ， 接 下 来 会 有 两 个 选项 。 如 果 我 们 需要 的 只 是 使 用 它 
们 执行 简单 的 抓 取 工作 ， 那 么 此 时 使 用 开发 机 运行 即 可 。 而 另 一 方面 ， 
更 常见 的 情况 是 需要 周期 性 地 运行 抓 取 任 务 ， 此 时 可 以 使 用 云 服务 器 ， 
如 Amazon、RackSpace 或 其 他 提供 商 ， 不 过 这 些 都 需要 创建 、 配 置 和 维 
护 工 作 。 此 时 就 是 Scrapinghub 发 挥 作用 的 时 候 了 。 





Scrapinghub 是 Scrapy 托 管 的 Amazon 服 务 器 ， 它 是 由 Scrapy 开 发 者 创 
建 的 Scrapy 云 基础 设施 提供 商 。 它 是 一 个 付费 服务 ， 不 过 也 提供 了 免费 
方案 。 如 果 你 想 在 几 分钟 内 ， 束 能 够 让 Scrapy 爬 虫 运行 在 专业 的 创建 和 
维护 环境 中 的 话 ， 那 么 本 章 非常 适合 你 。 


6.1 注册 、 和 登录 及 创建 项 目 


第 一 步 是 在 http://scrapinghub.com/ 上 面 创建 账号 。 我 们 所 需 填 写 
的 只 有 邮箱 地 址 和 密码 。 在 单 击 确认 邮件 的 链接 后 ， 就 可 以 登录 到 其 服 
务 中 。 我 们 可 以 看 到 的 第 一 个 页 面 是 个 人 面板 。 目 前 ， 我 们 还 没有 任何 
项 目 ， 因 此 现在 单 击 +Service 按 钮 (1) 来 创建 一 个 项 目 ， 如 图 6.1 所 
Ze 
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图 6.1 在 scrapinghub 上 创建 新 项 目 


将 项 目 命名 为 properties (2) ， 然 后 单 击 Create 按 钮 (3) 。 之 
后 ， 单 击 主 页 的 new 链 接 (4) 打开 该 项 目 。 


项 目 面板 是 项 目 中 最 重要 的 页 面 。 在 左 侧 的 菜单 中 ， 可 以 看 到 几 个 
区 域 ， 如 图 6.2 所 示 。Jobs 和 Spiders 区 域 分 别提 供 关 于 运行 和 息 虫 的 信 
Wo Periodic Jobs 人 允许 我 们 计划 定期 息 取 任务 。 而 男 外 4 个 区 域 目 前 来 
说 对 我 们 没有 那么 有 用 。 














Search 





scrapinghub 


properties Scrapy Cloud 
project id: 28814 

organization: scrapybook 

0 spiders, 0 members 


P Pending Jot 
| Jobs -pR X 

Spiders 菜单 

Collections 

Usage 

Reports Running Jol 


Activity 
Periodic Jobs 


Settings 


Kle.2 KÆ 
我 们 可 以 直接 前 往 Settings 区 域 (1) ， 如 图 6.3 所 示 。 与 很 多 网 站 的 


设置 不 同 ，Scrapinghub 的 设置 提供 了 很 多 功能 ， 需 要 你 十 分 了 解 它 们 。 
目前 ， 我 们 的 主要 关注 点 是 Scrapy Deploy 区 域 (2) 。 





scrapinghub Search 4 Notifications Help + | 


properties Scrapy Cloud / properties | Settings | Scrapy Deploy 


project id: 28814 i | 
organization: scrapybook Copy and paste the following lines into your project's sc 


0 spiders, 0 members 
# Project: properties 
Jobs [deploy] 
url = htt 





: ‘| /dash.scrapinghub,com/api/scrapyd/ 
Spiders EAS SIRS aa Qd 


Collections 

Usage 

Reports | 
Activity 
Periodic | 


Settings 






3 ,复制 该 URL 


Data Retention 
Eggs 

Items 
Members 
Scrapy Deploy 











图 6.3” 疏 虫 部 署 设 置 
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我 们 将 直接 从 开发 机 进行 部 署 。 要 想 实现 这 一 目标 ， 只 需 将 Scrapy 
Deploy 页 面 中 的 代码 (3) 找 贝 到 项 目 中 的 scrapy.cfg 文 件 中 ， 蔡 换 抒 
默认 的 [deploy] 区 域 即 可 。 你 会 注意 到 我 们 并 不 需要 设置 密码 。 我 们 将 
使 用 第 4 音 中 的 房产 项 目 作为 示例 ， 使 用 该 让 虫 的 原因 是 目标 数据 需要 
能 够 在 网 络 上 访问 到 ， 和 第 4 章 使 用 的 情况 一 样 。 在 使 用 它 之 前 ， 需 要 
恢复 原始 的 settings.py 文 件 ， 移 除 和 Appery.io 管 道 相关 的 引用 。 











本 章 代码 在 che6 目 录 中 。 其 中 ， 该 示例 位 于 che6/properties 目 录 中 。 





$ pwd 
/root/book/ch06/properties 
$ 1s 

properties scrapy.cfg 

$ cat scrapy.cfg 


[settings] 
default = properties.settings 


# Project: properties 


[deploy] 

url = http://dash.scrapinghub.com/api/scrapyd/ 
username = 180128bc7a0..... 50e8290dbf 3b0 
password = 


project = 28814 


AY Em, i ee Hscrapinghub$éftishub LA. nJ PA xt 
pip install shub 安 装 该 工具 ， 不 过 我 们 已 经 在 开发 机 中 已 经 安装 好 该 


工具 了 。 可 以 使 用 下 述 方法 登录 Scrapinghub。 


$ shub login 
Insert your Scrapinghub API key : 180128bc7a0..... 50e8290dbf3b0 
Success. 


我 们 已 经 将 API key 复 制 到 scrapy.cfg 文 件 中 了 ， 不 过 也 可 以 通过 单 
击 Scrapinghub 网 站 右上 和 角 的 用 户 名 ， 再 单 击 API Key 找 到 该 值 。 无 论 如 
何 ， 现 在 我 们 已 经 准备 好 使 用 shub deploy ANER f. 


$ shub deploy 

Packing version 1449092838 

Deploying to project "28814" in {"status": "ok", "project": 28814, 
"version": "1449092838", "spiders": 1} 

Run your spiders at: https://dash.scrapinghub.com/p/28814/ 


Scrapy. Af 4k Jii H AAT AMER ST, 3F Efz$lScrapinghub?4rP. A 
以 注意 到 ， 此 时 产生 了 两 个 新 目录 和 一 个 新 文件 。 这 些 只 是 辅助 文件 ， 
如 果 不 需 要 的 话 ， 可 以 安全 地 删除 它们 ， 不 过 通常 情况 下 没 必要 在 意 它 
MJ. 

$ 1s 


build project.egg-info properties scrapy.cfgsetup. py 
$ rm -rf build project.egg-info setup.py 





现在 ， 当 单 击 Scrapinghub 的 Spiders 区 域 (1) 时 ， 可 以 找到 刚刚 部 
蜀 的 tomobile 候 虫 ， 如 图 6.4 所 示 。 
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properties Scrapy Cloud | properties | Spiders 
project id: 28813 

organization: igh Spiders 

1 spiders, 0 members ` ) 





jo Spider name ~ Archived spiders 
| Spiders 
ider Last Run * 
Collections 
tomobile 
Usage 
Reports 
m 10 + Spiders per page 
Periodic Jobs 


Cattinat 


图 6.4 WAFER 
“TERM (2) ， 会 进入 到 疏 虫 面板 ， 如 网 6.5 所 示 。 访 面板 中 包 


含 大 量 信息 ， 不 过 目前 我 们 需要 做 的 就 是 单 击 右 上 角 的 Schedule 按钮 
(3) ， 然 后 在 弹出 的 对 话 框 中 再 次 单 击 Schedule 按钮 (4) 。 
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图 6.5 iX misi 


几 秒 钟 之 后 ， 可 以 在 页 面 中 的 Running Jobs 区 域 看 到 新 的 一 行 ， 
后 Requests 和 Items 的 数值 (5) 开始 不 断 增长 。 











与 开发 时 的 运行 速度 相 比 ， 此 时 的 运行 速度 可 能 不 会 降低 。 
Scrapinghub 使 用 了 算法 预 估 每 秒 的 请 求 数 ， 能 够 让 你 在 执行 时 不 会 被 屏蔽 。 









































让 它 运行 一 会 儿 ， 然 后 选择 该 任务 的 复 选 框 (6) ， 并 单 击 Stop 按 


几 秒 钟 之 后 ， 我 们 的 任务 将 会 停止 ， 并 进入 Completed Jobs 区 域 。 
要 想 查 看 已 经 抓 取 的 条 目 ， 可 以 单 击 items 链 接 中 的 数字 (8) 。 


6.3 访问 item 


现在 ,我 们 需要 前 往 任务 页 ， 如 图 6.6 所 示 。 在 该 页 中 ， 可 以 查看 
到 我 们 的 item (9) ， 并 确保 其 没有 问题 。 我 们 还 可 以 使 用 上 面 的 控件 
进行 过 滤 。 当 网 下 滚动 页 面 时 ， 更 多 的 item 会 被 自动 加 载 出 来 。 
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图 6.6 ”查看 及 导出 item 


如 果 存 在 一 些 没 能 正常 运行 的 情况 ， 可 以 在 Items 上 方 的 Requests 
和 Log 中 找到 有 用 的 信息 C100 。 可 以 使 用 顶部 的 面包 屑 导航 回 到 疏 虫 
或 项 目 中 (11) 。 当 然 ， 也 可 以 通过 单 击 左上 方 的 Items 按 钮 (12) , 
选择 合适 的 选项 (13) ， 将 item 以 常见 的 CSV、JSON、JSON 行 等 格式 








下 载 下 来 。 


另 一 种 访问 item 的 方式 是 通过 Scrapinghub 提 供 的 Items API。 我 们 所 
需 做 的 束 是 查看 任务 或 items 页 面 中 的 URL， 类 似 于 下 面 这 样 。 


https://dash.scrapinghub.com/p/28814/job/1/1/ 








在 该 URL 中 ，28814 是 项 目 编 号 (之 前 在 scrapy.cfg 文 件 中 设置 过 
BO. BPE ZINE ANA S/ID CEN"tomobile"(EE) ， 而 第 二 个 1 
则 是 任务 编号 。 以 上 述 顺 序 使 用 这 3 个 数值 ， 并 使 用 我 们 的 用 户 名 /API 
Key 进 行 验证 ， 惑 可 以 在 控制 台中 使 用 cur1 建 立 
到 https://storage.scapinghub.comy items/<project id>/<spider 
id»/«job id> 的 请 求 ， 获 取 item， 该 过 程 如 下 所 示 。 

$ curl -u 180128bc7a0..... 50e8290dbf3b0: https://storage.scrapinghub.com/ 

items/28814/1/1 


{"_type":"PropertiesItem", "description": ["same\r\nsmoking\r\nr... 
{"_type":"PropertiesItem", "description": ["british bit keep eve... 


WARS, BOTS a 8 BI AY. IP EV RUBUS A 
性 使 得 我 们 可 以 编写 应 用 ， 使 用 Scrapinghub 作 为 数据 存储 后 端 。 不 过 需 
要 注意 的 是 ， 这 些 数据 并 不 是 无 限期 存储 的 ， 而 是 依赖 于 订阅 方案 中 的 
存储 时 间 限 制 “ 对 于 免费 方案 来 说 该 限制 为 7 天 ) 。 
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MAE SN Wr S] VEXI XE ES R LP TE, EAS 
会 再 感到 惊讶 了 。 


该 过 程 如 图 6.7 所 示 。 我 们 只 需要 前 往 Periodic Jobs 区 域 (1) ， 单 
击 Add (2) , KEM (3), (4), Saveb 
BI < 
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图 6.7 thE SX 


65 本章 小 结 


在 本 章 中 ， 我 们 拥有 了 第 一 次 部 团 Scrapy 项 目的 经 验 ， 这 里 我 们 使 
用 了 Scrapinghub 将 其 部 署 到 云端 。 我 们 计划 运行 任务 ， 收 集 上 千 个 
item， 并 且 可 以 通过 使 用 API 的 方式 非常 容易 地 浏览 和 抽取 它们 。 在 接 
下 来 的 章节 中 ， 我 们 将 会 继续 提高 知识 水 平 ， 为 自己 创建 一 个 类 似 
Scrapinghub 的 小 型 服务 器 。 首 移 ， 我 们 会 在 下 一 重 中 学 习 配置 和 管理 。 











前 面 章 节 讲 解 了 使 用 Scrapy 开 发 一 个 简单 朴 虫 ， 并 用 它 从 网 络 上 抽 
取 数 据 是 多 么 简单 。Scrapy 包 含 很 多 工具 和 功能 ， 可 以 通过 设置 使 它们 
可 用 。 对 于 许多 软件 框架 来 说 ， 设 置 是 “ 令 人 讨厌 的 东西 >， 因 为 它 需 要 
根据 系统 如 何 运 转 进 行 调 整 。 而 对 于 Scrapy 来 说 ， 设 置 则 是 其 最 重要 的 
基本 机 制 之 一 ， 除 了 调 优 和 配置 外 ， 还 可 以 启用 功能 ， 以 及 允许 我 们 扩 
展 框架 。 我 们 不 打算 与 优秀 的 Scrapy 文 档 竞 争 ， 只 想 辅助 你 更 快 地 浏览 
设置 概况 ， 并 找 出 与 你 最 相关 的 内 容 。 当 你 准备 在 生产 环境 中 进行 变更 
之 前 ， 请 仔细 阅读 Scrapy 文 档 。 








7.1 使 用 Scrapy 设 置 


在 Scrapy 中 ， 可 以 按照 5 个 递增 的 优先 级 修改 设置 。 我 们 将 会 依次 
看 到 这 5 个 等 级 。 第 一 级 是 默认 设置 ， 通 常 不 需要 修改 它 ， 不 过 
scrapy/settings/default_settings.py《〈 在 系统 的 Scrapy 源 代码 或 
Scrapy 的 GitHub 中 可 以 找到 〉 中 的 代码 确实 值得 一 读 。 默 认 设置 在 命令 
级 别 中 得 以 优化 。 实 际 上 ， 除 非 想 要 实现 目 定 义 命 令 ， 人 否则 无 需 考虑 
它 。 通 常情 况 下 ， 我 们 只 会 在 命令 级 别 下 一 级 的 项 目 
<project_name>/settings.py 文 件 中 修改 设置 。 这 些 设置 只 应 用 于 当前 
项 目 。 该 级 别 最 为 方便 ， 因 为 当 我 们 将 项 目 部 署 到 云 服务 
时 ，settings.py 文 件 将 会 打包 在 其 中 ， 并 且 由 于 它 是 一 个 文件 ， 因 此 
可 以 使 用 目 己 喜欢 的 文本 编辑 器 轻松 调整 几 十 个 设置 。 接 下 来 一 级 是 每 
ASE m mu. 通过 在 爬虫 定义 中 使 用 custom_settings 属 性 ， 可 以 轻松 
地 为 每 个 爬虫 目 定 义 设 置 。 比 如 ， 可 以 通过 该 设置 为 一 个 指定 的 爬虫 局 
用 或 禁用 Item 管 道 。 最 后 ， 对 于 一 些 临 时 修改 ， 可 以 使 用 命令 行 参 数 - 
s， 在 命令 行 中 传输 设置 。 我 们 在 前 面 已 经 使 用 过 几 次 ， 比 如 -s 
CLOSESPIDR PAGECOUNT-3, HIH]- JH Hm» Ré. DAQEJE mx B X 
闭 。 在 该 级 别 中 ， 我 们 可 能 会 去 设置 API secrets、 密 码 等 。 不 要 将 这 些 
信息 写 入 settings.py 文 件 中 ， 因 为 你 不 会 希望 它们 意外 出 现在 某 些 公 
开 代 码 库 当中 。 


在 本 市 中 ， 我 们 将 会 研究 一 些 非常 重要 的 常用 设置 。 为 了 感受 不 同 
类 型 ， 可 以 在 任意 项 目 中 尝试 如 下 命令 。 


$ scrapy settings --get CONCURRENT REQUESTS 
16 

















你 得 到 的 是 其 默认 值 。 然 后 ， 修 改 项 目 中 的 
<project_name>/settings.py 文 件 ， 为 CONCURRENT_REQUESTS 设 置 一 个 
值 ， 比 如 14。 此 时 ， 前 面 的 scrapy settings 命 令 将 会 给 出 你 刚刚 设置 的 
那个 值 ， 之 后 不 要 未 记 恢 复 该 值 。 接 下 来 ， 答 试 从 命令 行 中 显 式 设置 该 
参数 ， 将 会 得 到 如 下 结果 。 


$ scrapy settings --get CONCURRENT_REQUESTS -s CONCURRENT_REQUESTS=19 
19 





前 面 的 输出 提示 了 一 个 很 有 意思 的 事情 。scrapy cwarl 和 scrapy 
settings 都 只 是 命令 。 每 个 命令 都 能 使 用 刚才 描述 的 加 载 设置 的 方法 ， 
其 示例 如 下 所 示 。 


$ scrapy shell -s CONCURRENT REQUESTS=19 
>>> settings.getint('CONCURRENT REQUESTS') 
19 





当 需 要 找 出 项 目 中 茶 个 设置 的 有 效 值 时 ， 可 以 使 用 前 面 给 出 的 任意 
一 种 方法 。 现 在 ， 我 们 需要 更 加 仔细 地 了 解 Scrapy 的 设置 。 


7.0 #2AKE 


Scrapy 包 含 非 第 多 的 设置 ， 因 此 为 其 分 类 成 为 了 一 个 迫切 的 需求 。 
我 们 将 会 从 图 7.1 中 总 结 出 的 大 部 分 基本 设置 开始 讨论 。 通 过 它们 了 解 
重要 的 系统 特性 ， 并 且 我 们 还 将 频 楷 地 调整 它们 。 
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图 7.1 Scrapy 基 本 设置 


7.2.1 分 析 


使 用 这 些 设置 ， 你 可 以 配置 Scrapy， 使 其 通过 日 志 、 统 计 和 Telnet 
工具 提供 性 能 和 调试 信息 。 
1. Hi 


Scrapy 基 于 严重 程度 ， 拥 有 不 同 的 日 志 等 级 : DEBUG (最 低 等 

级 ) . INFO. WARNING. ERRORACCRITICAL 〈 最 高 等 级 ) 。 除 此 之 外 ， 还 
有 一 个 SILENT 等 级 ， 使 用 它 将 不 记录 任何 日 志 。 通 过 将 LoG_LEVEL 设 置 为 
希望 日 志 记录 的 最 低级 别 ， 可 以 限制 日 志文 件 只 接受 指定 等 级 以 上 的 日 
志 。 我 们 一 般 将 该 值 设 为 INF0， 因 为 DEBu6 级 别 过 于 详细 。 一 个 非常 有 
用 的 Scrapy 扩 展 是 Log ， Stats 扩展 ， 该 扩展 会 打印 出 每 分 钟 抓 取 的 item 和 
页 面 的 数量 。 日 志 频 率 使 用 LoGSTATS_INTERVAL 进 行 设置 ， 其 默认 值 为 60 
秒 。 访 设置 的 频率 过 低 ， 所 以 在 我 开发 时 ， 会 将 该 值 设置 为 5 秒 ， 因 为 
大 多 数 运 行 都 很 短暂 。 写 入 日 志 的 文件 可 以 通过 LoG_FILE 设 置 。 除 非 
将 LoG_ENABLED 的 值 设 置 为 False 进 行 显 式 禁 用 ， 否 则 日 志 将 会 输出 到 标 
准 错误 当中 。 最 后 ， 可 以 通过 设置 Lo6_sTD0UT 为 True， 告 知 Scrapy 将 所 
有 标准 输出 (比如 : "print" 消 息 ) 写 入 日 志 。 


2. 统计 


STATS_DUMP 默 认 是 开局 的 ， 它 会 在 爬虫 结束 运行 时 ， 将 统计 信息 收 
集 右 中 的 值 转 存 到 日 志 当 中 。 可 以 通过 将 DowNLOADER_STATS 设 置 
为 False， 控 制 是 否 为 下 载 记录 统计 信息 。 还 可 以 通过 DEPTH_STATS 设 
置 ， 控 制 是 否 收集 站 点 深度 的 统计 信息 。 要 想 了 解 有 关 深 度 的 更 多 细 
节 ， 可 以 将 pDEPTH_STATS_VERBOSE 设 为 True。STATSMAILER_RCPTS 是 一 个 邮 
件 列表 《比如 设置 为 ['"myemail.com']) ， 当 疏 取 完成 时 ， 会 癌 该 列表 中 
和 
助 到 你 。 


3. Telnet 


Scrapy 包 含 一 个 内 置 的 Telnet 控 制 台 ， 可 以 为 你 提供 正在 运行 中 的 
Scrapy 进 程 的 Python ^ shell。TELNETCONSOLE_ENABLED 默 认 情 况 下 是 开启 




















的 ， 


而 TELNETCONSOLE_PORT 决 定 了 连接 到 控制 台 的 端口 。 你 可 能 需要 修 


改 该 值 ， 以 防止 端口 冲突 。 


示例 1 一 一 使 用 Telnet 





在 某 些 情况 下 ， 和 需要 查看 正在 运行 的 Scrapy 的 内 部 状态 。 下 面 让 我 


们 看 看 如 何 使 用 Telnet 控 制 台 完成 该 操作 。 


听 。 





本 章 代 码 位 于 cheo7 目 录 中 。 其 中 ， 本 示例 在 che7/properties 目 录 中 。 


$ pwd 
/root/book/ch07/properties 
$ 1s 

properties scrapy.cfg 


EHU P A SFP aR ER. 


$ scrapy crawl fast 


[scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023:6023 


上 面 的 消息 意味 着 Telnet 已 经 被 激活 ， 并 且 使 用 6023 端 口 进行 监 
现在 ， 可 以 在 另 一 个 终端 中 ， 使 用 telnet 命 令 连 接 它 。 


$ telnet localhost 6023 
>>> 


此 时 ， 访 控制 台 会 提供 一 个 Scrapy 内 部 的 Python 控制 台 。 你 可 以 碍 


看 某 些 组 件 ， 比 如 使 用 engine 变 量 查 看 引擎 ， 不 过 为 了 能 够 更 快 地 了 解 
状态 概况 ， 可 以 使 用 est() 命 令 。 


>>> est() 
Execution engine status 


time()-engine. start_time : 5.73892092705 
engine.has capacity() : False 
len(engine.downloader.active) : 8 
len(engine.slot.inprogress) : 10 
len(engine. scraper .slot.active) : 2 


第 10 革 将 会 探讨 其 中 的 一 些 度量 标准 。 此 时 将 及 现 你 依然 是 在 
Scrapy 引 擎 内 部 运行 它 。 假 设 使 用 了 如 下 命令 : 


>>> import time 
>>> time.sleep(1) # Don't do this! 


此 时 ， 你 会 发 现在 另 一 个 终端 中 会 出 现 短暂 的 和 暂停。 显然， 该 控制 
台 不 是 用 来 计算 Pi 值 前 100 万 位 的 合适 地 点 。 你 可 以 在 该 控制 台中 操作 
的 事情 还 包括 和 暂停、 继续 和 终止 仆 取 。 你 可 能 会 发 现 ， 在 远程 机 器 操作 
Scrapy 会 话 时 ， 这 些 事 情 和 终端 通常 都 很 有 用 。 


>>> engine.pause() 
>>> engine.unpause() 








>>> engine. stop() 
Connection closed by foreign host. 


7.23.2 VERE 


第 10 章 将 会 详细 介绍 关于 性 能 的 设置 ， 这 里 仅 作 为 一 个 小 结 。 人 性 能 
设置 可 以 让 我 们 根据 特定 的 工作 负载 调整 Scrapy 的 性 能 特 
性 。coNCURRENT_REQUESTS 用 于 设置 同时 执行 的 最 大 请 求 数 。 大 多 数 情 况 
下 ， 该 设置 用 于 防止 在 爬 取 不 同 网 站 AIP) 时 超出 服务 器 出 站 容 
量 。 除 此 之 外 ， 还 可 以 找到 更 加 严格 的 
CONCURRENT_REQUESTS_PER_DOMAIN 以 及 CONCURRENT_REQUESTS_PER_IP。 这 
两 个 设置 分 别 通 过 限制 同时 对 每 个 域名 或 ”IP 地 址 发 出 的 请 求 数 ， 达 到 
保护 远程 服务 器 的 效果 。 当 CONCURRENT_REQUESTS_PER_IP 为 非 零 值 
H 时 ，CONCURRENT_REQUESTS_PER_DOMAIN 就 会 被 忽略 。 这 些 设置 不 是 以 秒 
为 单位 的 。 如 果 cONCURRENT_REQUESTS = 16， 而 请 求 平均 花费 1/4 秒 的 
话 ， 你 的 限制 就 是 每 秒 16/0.25 = 64 个 请 求 。coNCURRENT_ITEMS 用 于 设置 
对 每 个 响应 同时 处 理 的 最 大 item 数 量 。 你 可 能 会 发 现 该 设置 并 没有 它 看 








起 来 那么 实用 ， 因 为 很 多 情况 下 ， 每 个 页 面 或 请 求 中 只 有 一 个 Item。 并 
且 ， 其 默认 值 100 也 比较 随意 。 如 果 减 小 该 值 ， 比 如 减 小 到 10 或 者 1， 你 
甚至 可 能 会 看 到 性 能 提升 ， 这 取决 于 每 个 请 求 的 Item 数 量 ， 以 及 管道 的 
复杂 程度 。 还 需要 注意 的 是 ， 由 于 该 值 是 每 个 请 求 时 的 数量 ， 如 果 限 制 
J CONCURRENT_REQUESTS = 16、CONCURRENT_ITEMS = 100， 那 么 可 能 意味 
着 会 有 1600 个 item 同 时 在 尝试 写 入 数据 库 。 一 般 来 说 ， 建 议 将 该 值 设 置 
得 更 保守 一 些 。 


对 于 下 载 ，DOWNLOAD_TIMEO0UT 决 定 了 下 载 器 在 取消 一 个 请 求 之 前 需 
要 等 待 的 时 间 ， 其 默认 值 为 180 秒 ， 这 似乎 有 些 偏 高 ( 当 并 发 请 求 数 为 
16 时 ， 这 意味 着 站 点 下 载 的 速度 大 约 为 5 页 /分 钟 ) 。 建 议 降低 该 值 ， 比 
如 当 存 在 超时 间 题 时 ， 将 其 降低 为 10 秒 。 默 认 情况 下 ，Scrapy 将 两 次 下 
载 间 的 延迟 设置 为 0， 以 最 大 化 抓 取 速度 。 可 以 使 用 powNLOAD_DELAY 设 
置 将 其 修改 为 更 加 保守 的 下 载 速度 。 有 些 网 站 会 将 请 求 频率 作为 “机 器 
人 ”行为 的 测量 指标 。 通 过 设置 bowNLOAD_DELAY， 还 会 在 下 载 延 迟 中 启用 
一 个 t+50% 的 随机 偏 移 量 。 可 以 通过 将 RANDOMIZE_DOWNLOAD_DELAY 设 置 
为 False 来 禁用 该 功能 。 


最 后 ， 为 了 更 快 的 DNS 查 找 ，Scrapy 默 认 使 用 了 DNSCACHE_ENABLED 
设置 ， 局 用 了 内 存 中 的 DNS 绥 存 。 


7.2.3 dni IE EH 


ScrapyH'JCloseSpiderd) Ji uf EA 4E3 RETRAIN, ELI LET rh fe 
取 。 可 以 分 别 使 用 cLoSESPIDER_TIMEOUT〔 以 秒 
tt) 、CLOSESPIDER_ITEMCOUNT、CLOSESPIDER_PAGECOUNT 以 及 
CLOSESPIDER_ERRORCOUNT 这 些 设 置 ， 配 置 在 一 段 时 间 后 、 抓 取 一 定数 量 
item 后 、 接 收 到 一 定数 量 啊 应 后 或 是 遇 到 一 定数 量 错误 后 ， 关 闭 爬 虫 。 
通 第 情况 下 ， 你 会 在 运行 爬虫 时 使 用 命令 行 的 方式 设置 这 些 内 容 ， 我 们 
己 经 在 前 面 的 几 章 中 做 过 几 次 此 类 操作 。 









































$ scrapy crawl fast -s CLOSESPIDER_ITEMCOUNT=10 
$ scrapy crawl fast -s CLOSESPIDER_PAGECOUNT=10 
$ scrapy crawl fast -s CLOSESPIDER_TIMEOUT=10 





7.2.4 HTTP 缓存 和 离线 运行 


Scrapy 的 HttpcacheMiddleware 组 件 《〈 默 认 未 激活 ) 为 HITP 请 求 和 


啊 应 提供 了 一 个 低级 的 缓存 。 当 启用 该 组 件 时 ， 绥 存 会 存储 每 个 请 求 及 
其 对 应 的 啊 应 。 通 过 将 HTTPCACHE_POLICY 设 置 
为 scrapy.contrib.httpcache.RFC2616Policy， 可 以 启用 一 个 遵从 
RFC2616 的 更 复杂 的 缓存 策略 。 为 了 启用 该 缓存 ， 还 需要 
将 HTTPCACHE_ENABLED 设 置 为 True， 并 将 HTTPCACHE_DIR 设 置 为 文件 系统 
目录 《使 用 相对 路 径 将 会 在 项 目的 数据 文件 夹 下 创建 一 个 目 
X) 。 

还 可 以 选择 通过 设置 存储 后 端 类 HTTPCACHE_STORAGE 
为 scrapy.contrib.httpcache.DbmCcacheStorage， 为 缓存 文件 指定 数据 库 
后 端 ， 并 且 还 可 以 选择 调整 HTTPCACHE_DBM_MODULE 设 置 (默认 
为 任意 数据 库 管 理 系 统 ) 。 还 有 一 些 设置 可 以 用 于 缓存 行为 调 优 ， 不 过 
默认 值 已 经 能 够 为 你 很 好 地 服务 了 。 


示例 2 一 一 使 用 缓存 的 离线 运行 
假设 你 运行 了 如 下 代码 : 


$ scrapy crawl fast -s LOG_LEVEL=INFO -s CLOSESPIDER_ITEMCOUNT=5000 








你 会 发 现 大 约 一 分 钟 后 运行 可 以 完成 。 如 果 此 时 无 法 访问 Web 服 务 
， 可 能 就 无 法 爬 取 任 何 数据 。 假 设 你 现在 使 用 如 下 代码 ， 再 次 运行 疏 





J 


$ scrapy crawl fast -s LOG_LEVEL=INFO -s CLOSESPIDER_ITEMCOUNT=5000 -s 
HTTPCACHE_ENABLED=1 


INFO: Enabled downloader middlewares:...*HttpCacheMiddleware* 








你 会 注意 到 此 时 启用 了 HttpcacheMiddleware， 当 查看 当前 目录 下 的 
隐藏 目录 时 ， 将 会 发 现 一 个 新 的 ,scrapy 目 录 ， 目 录 结 构 如 下 所 示 。 


$ tree .scrapy | head 
.SCrapy 
L— httpcache 

L— easy 





I— meta 


[— pickled meta 
I— request body 
| 一 request headers 


|I— 00 
| | 一 002054968919f13763a7292c1907caf06d5a4810 
| 
| 
| | 一 response body 


现 即 使 在 无 法 访问 Web 服 务 器 的 情况 下 ， 也 能 完成 得 更 加 迅速 。 


$ scrapy crawl fast -s LOG_LEVEL=INFO -s CLOSESPIDER_ITEMCOUNT=4500 -s 
HTTPCACHE_ENABLED=1 


我 们 使 用 了 略 少 于 前 面 数量 的 item 作 为 限制 ， 是 因为 当 使 
用 cLosESPIDER_ITEMCOUNT 结 束 时 ， 一 般 会 在 爬虫 完全 结束 前 读 取 更 多 的 
页 面 ， 但 我 们 不 希望 命中 的 页 面 不 在 缓存 范围 内 。 要 想 清理 缓存 ， 只 需 
删除 缓存 目录 即 可 。 


$ rm -rf .scrapy 





7.2.5 JERKS 


Scrapy 人 允许 我 们 调整 选择 优先 爬 取 页 面 的 方式 。 可 以 在 DEPTH_LIMIT 
设置 中 设 定 最 大 深度 ， 该 值 为 0 时 表示 不 限制 。 通 过 DpEPTH_PRIORITY 设 
置 ， 可 以 基于 请 求 的 深度 指定 优先 级 。 最 值得 注意 的 是 ， 可 以 将 该 值 设 
置 为 正 数 ， 以 执行 广度 优先 爬 取 ， 并 将 任务 队列 由 LIFO《〈 后 入 先 出 ) 
转 为 FIFO 〈 先 入 先 出 ) : 








DEPTH_PRIORITY = 1 
SCHEDULER DISK QUEUE = 'scrapy.squeue.PickleFifoDiskQueue ' 
SCHEDULER MEMORY QUEUE = 'scrapy.squeue.FifoMemoryQueue ' 





FECA PET IRAE KBE AAS, kki, XgE— 39590] ee, 
最 近 的 新 闻 更 应 该 接近 首页 ， 并 且 每 个 新 闻 页 都 有 到 其 他 相关 新 闻 的 链 
接 。Scrapy 的 默认 行为 是 对 首页 的 前 几 个 新 闻 报道 进行 尽 可 能 深 地 的 
取 ， 之 后 才 会 继续 爬 取 接 下 来 的 头 版 新 闻 。 而 广度 优先 的 顺序 则 是 首先 
有 扑 取 最 顶层 的 新 闻 ， 之 后 才 会 进一步 深入 ， 妆 结合 DEPTH_LIMIT 设 置 
时 ， 比 如 设 为 3， 可 以 让 你 快速 浏览 门户 网 站 中 最 近 的 新 闻 。 


网 站 在 其 根 目录 下 使 用 Web 标 准 的 robots.txt 文 件 ， 声 明 它 们 允许 
的 疏 取 策略 ， 以 及 不 希望 被 访问 的 网 站 结构 。 如 果 将 RoBoTSTXT_0BEY 设 
置 为 True，Scrapy 将 会 遵守 该 约定 。 如 果 局 用 了 该 设置 ， 请 在 调试 时 记 





住 该 点 ， 以 防 发 现任 何 意外 的 行为 。 


cookiesMiddleware 显 然 包 含 了 和 cookie 相 关 的 所 有 操作 ， 其 中 包括 
会 话 跟 踪 、 稚 许 登 录 等 。 如 果 你 想 拥 有 更 “私密 ”的 爬 取 ， 可 以 通过 
将 coOKIES_ENABLED 设 置 False 以 禁用 。 禁 用 cookie 还 会 轻微 降低 你 使 用 
的 带宽 ， 并 且 可 能 会 对 你 的 候 取 操作 有 一 点 提速 ， 当 然 它 会 依赖 于 你 仆 
取 的 网 站 。 与 cookiesMiddleware 类 似 ，REFERER_ENABLED 的 默认 设置 
是 True， 即 启用 了 用 于 填充 Referer 头 的 RefererMiddleware。 可 以 使 
用 DEFAULT_REQUEST_HEADERS 自 定义 头 部 。 你 可 能 会 发 现 该 设置 对 于 某 些 
奇怪 的 网 站 很 有 用 ， 在 这 些 网 站 中 只 有 包含 了 特定 请 求 头 的 请 求 才 不 会 
被 禁止 。 最 后 ， 自 动 生 成 的 settings.py 文 件 推荐 我 们 设置 USER_AGENT。 
该 设置 的 默认 值 是 Scrapy 的 版 本 ， 而 我 们 需要 将 其 修改 为 能 够 让 网 站 拥 
有 者 联系 到 我 们 的 信息 。 


7.2.6 feed 


feed 可 以 让 你 将 Scrapy 抓 取得 到 的 数据 输出 到 本 地 文件 系统 或 远程 
服务 器 当中 。FEED_URI ,FEED_URI 决 定 了 feed 的 位 置 ， 该 设置 中 可 能 会 包 
含 命名 参数 。 比 如 ，scrapy fast -o "%(name)s_%(time)s.jl" 将 会 自动 
以 当前 时 间 和 的 虫 名 称 (fast ) 填充 输出 文件 名 。 如 果 需 要 使 用 一 个 自 
定义 参数 ， 比 如 %(foo)s， 那 么 feed 输出 器 需要 你 在 疏 虫 中 提供 foo 属 
性 。 此 外 ，feed 的 存储 ， 如 S3、FTP 或 本 地 文件 系统 ， 也 定义 在 URI 
中 。 例 如 ，FEED_URI='s3://mybucket/file.json' 将 使 用 你 的 Amazon 竺 
证 (AWS_ACCESS_KEY_ID 和 AWS_SECRET_ACCESS_KEY) 上 传 文件 到 Amazon 
的 S3 当 中 。Feed 的 格式 (JSON、JSON Line、CSV 及 XML) 可 以 使 
用 FEED_FORMAT 确 定 。 如 果 没 有 设 定 该 设置 ，Scrapy 将 会 根据 FEED_URI 的 
扩展 名 猜测 格式 。 通 过 将 FEED_STORE_EMPTY 设 置 为 True， 可 以 选择 输出 
空 的 feed。 此 外 ， 还 可 以 使 用 FEED_EXPORT_FIELDS 设 置 ， 选 择 只 输出 指 
定 的 几 个 字段 。 该 设置 对 于 具有 固定 标题 列 的 .csv 文 件 尤 其 有 用 。 最 
后 ，FEED_URI_PARAMS 用 于 定义 对 FEED_URI 中 任意 参数 进行 后 置 处 理 的 函 
数 。 


727 媒体 下 载 


Scrapy 可 以 使 用 图 像 管 道 下 载 媒 体内 容 ， 此 外 还 可 以 将 图 像 转 换 为 
不 同 的 格式 、 生 成 绽 略 图 以 及 基于 大 小 过 滤 图 像 。 


IMAGES_STORE 设 置 用 于 设 定 图 像 存 储 的 目录 〈 使 用 相对 路 径 时 ， 将 














会 在 项 目 根 目录 下 创建 目录 ) 。 每 个 Item 的 图 像 URL 应 该 在 image_ur1ls 
字段 中 设 定 〈 可 以 被 IMAGES_URLS_FIELD 设 置 绑 写 ) ， 而 下 载 图 像 的 文件 
名 则 是 在 一 个 新 的 images 字 段 中 设 定 〈 可 以 被 IMAGES_RESULT_FIELD 设 置 
183) 。 可 以 使 用 IMAGES_MIN_WIDTH 和 IMAGES_MIN_HEIGHT 设 置 过 小 过 小 
的 图 像 。IMAGES_EXPIRES 决 定 了 图 像 在 过 期 前 保留 在 缓存 中 的 天 数 。 对 
于 缩 略 网 的 生成 ， 可 以 使 用 IMAGES_THuMBS 设 置 ， 它 可 以 让 你 按照 一 种 

或 多 种 尺寸 生成 缩 略图 。 比 如 ， 可 以 让 Scrapy 生 成 一 种 图 标 大 小 的 缩 略 
图 以 及 一 种 用 于 每 次 图 像 下 载 时 的 中 等 大 小 缩 略 图 。 


1. 其 他 媒体 


可 以 使 用 文件 管道 下 载 其 他 媒体 文件 。 与 图 像 类 似 ，FILES_STORE 
设置 用 于 确定 已 下 载 文件 的 存放 位 置 ， 而 FILES_EXPIRES 设 置 用 于 确定 
文件 保留 的 天 数 。FILES_URLS_FIELD 以 及 FILES_RESULT_FIELD 设 置 都 和 
对 应 的 IMAGES_* 设 置 的 功能 相似 。 文 件 管道 和 图 像 管道 可 以 同时 激活 ， 
不 会 产生 冲突 。 


示例 3 一 一 下 载 图 像 


为 了 能 够 使 用 图 像 功 能 ， 必 须 使 用 sudo pip install image 安 装 图 
像 包 。 在 我 们 的 开发 机 中 ， 已 经 为 大 家 安装 好 该 三 方 包 了 。 想 要 局 用 图 
像 管 道 ， 只 需要 编辑 项 目的 settings.py 文 件 ， 添 加 少量 设置 。 首 先 ， 
需要 在 ITEM_PIPELINES 中 包 
含 scrapy .pipelines.images.ImagesPipeline。 然后 ， 设 置 IMAGES_STORE 
为 相对 路 径 "images"， 此 外 还 可 以 选择 通过 IMAGES_THuMBS 设 置 一 些 缩 略 
图 的 描述 ， 相 关 代 人 码 如 下 所 示 。 


ITEM_PIPELINES = { 








'scrapy.pipelines.images.ImagesPipeline': 1, 


} 
IMAGES_STORE = 'images' 
IMAGES THUMBS = { 'small': (30, 30) } 


我 们 在 Item 中 已 经 包含 了 合适 的 image_urls 字 段 ， 所 以 现在 可 以 参 
FAQ Rat m 3A4TIGH D. 
$ scrapy crawl fast -s CLOSESPIDER ITEMCOUNT-90 


DEBUG: Scraped from «200 http://http://web:9312/.../index 00003.html/ 
property 000001.html»( 


'image urls': [u'http://web:9312/images/i02.jpg'], 
'images': [{'checksum': 'c5b29f4b223218e5b5beece79fe31510', 
'path': 'full/705a3112e67...a1f.jpg', 
'url': 'http://web:9312/images/i02.jpg'}], 


$ tree images 
images 


| 一 full 
| | 一 9abf072604df23b3be3ac51c9509999fa92ea311.jpg 
| | L— 1520131b5cc5f656bc683ddf5eab9b63e12c45b2. jpg 


L— thumbs 
L— small 
Oabf072604df23b3be3ac51c9509999fa92ea311. jpg 
= 1520131b5cc5f656bc683ddf5eab9b63e12c45b2. jpg 


可 以 看 到 图 像 成 功 下 载 ， 并 且 创 建 了 缩 略 图 。 主 文件 的 JPG 名 称 按 
照 预 期 存储 在 了 ;images 字 段 当中 ， 因 此 很 容易 推测 缩 略 图 的 路 径 。 如 果 
想 要 清空 图 像 ， 我 们 可 以 使 用 rm -rf images. 


7.2.8 Amazon Web 服 务 


Scrapy 对 访问 Amazon Web 服 务 有 内 置 文 持 。 你 可 以 在 AWSACCFSS 
KEY ID 设置 中 存储 AWS 访 问 密 钥 ， 在 AWS_SECRET_ACCESS_KEY 设 
置 中 存储 私密 密 钥 。 默 认 情 况 下 ， 这 些 设置 均 为 空 。 可 以 在 如 下 场景 中 
使 用 : 


e 当下 载 以 sa3:// 开 头 的 URL 时 《而 不 是 https:// 等 ) ; 
。 当 通 过 媒体 管道 使 用 ss:// 路 径 存 储 文件 或 缩 略 图 时 ; 
e 当 在 s3:// 目 录 中 存储 Item 的 输出 Feed 时 。 


不 要 将 这 些 设置 存储 在 settings.py 文 件 当 中 ， 以 防 未 来 某 天 由 于 
任何 原因 造成 代码 公开 时 被 汽 露 。 


7.2.9 ”使 用 代理 和 疏 虫 

Scrapy 的 HttpProxyMiddleware 组 件 允 许 你 使 用 代理 设置 ， 根据 
UNIX 约 定 ， 这 些 设置 是 通过 http_proxy、https_proxy 以 及 no_proxy 这 
几 个 环境 变量 定义 的 。 该 组 件 默 认 是 启用 状态 的 。 


示例 4 一 一 使 用 代理 和 Crawlera 的 智能 代理 











DynDNS 《或 任何 类 似 的 服务 ) 提供 了 一 个 免费 的 在 线 工 具 ， 用 于 
查看 当前 的 IP 地 址 。 使 用 Scrapy shell， 我 们 向 checkip.dyndns,.org 发 送 
请 求 ， 碍 看 啊 应 ， 获 取 当 前 的 卫 地 址 。 


$ scrapy shell http://checkip.dyndns.org 

>>> response.body 

"<html><head><title>Current IP Check</title></head><body>Current IP 
Address: XXX.XXX.XXX.Xxx</body></html>\r\n' 

>>> exit( ) 








想 要 开始 代理 请 求 ， 需 要 退出 shell， 并 使 用 export 命 令 设 置 新 的 代 
理 。 可 以 通过 搜索 HMA 的 公开 代理 列表 测试 免费 代理 
(http://proxylist. hidemyass.com) 。 比 如 ， 我 们 从 该 列表 中 选择 了 
一 个 卫 为 10.10.1.1、 端 口 为 80 的 代理 〈 非 真实 存在 的 代理 ， 请 将 其 蔡 换 
为 你 自己 的 代理 地 址 ) ， 可 以 按照 如 下 操作 。 


$ # First check if you already use a proxy 

$ env | grep http_proxy 

$ # We should have nothing. Now let's set a proxy 
$ export http_proxy=http://10.10.1.1:80 


按照 刚才 的 步骤 重新 运行 scrapy shell， 可 以 看 到 执行 的 请 求 使 用 了 
不 同 的 IP。 此 外 ， 你 还 会 发 现 这 些 代理 通常 速度 都 很 慢 ， 而 且 在 一 些 情 
况 下 无 法 成 功 ， 如 果 人 过 到 这 类 情况 ， 可 以 尝试 更 换 为 其 他 的 代理 。 如 果 
想 要 禁用 代理 ， 则 需要 退出 Scrapy shell， 并 执行 unset http proxy (或 
恢复 为 之 前 的 值 ) 。 


Crawlera 是 Scrapinghub 的 一 项 服务 ， 可 以 为 Scrapy 的 开发 者 提供 一 
个 非常 智能 的 代理 。 除 了 在 后 台 使 用 很 大 的 IP 池 路 由 你 的 请 求 外 ， 该 代 
理 还 会 调整 延迟 和 失败 重 试 ， 让 你 在 保持 尽 可 能 快 的 情况 下 ， 获 得 尽 可 
能 多 旦 稳定 的 成 功 啊 应 流 。 它 基本 上 可 以 使 息 虫 开发 者 的 梦想 成 真 ， 并 
且 只 需 像 之 前 那样 ， 设 置 http_proxy 环 境 变 量 ， 就 可 以 使 用 。 


$ export http proxy-myusername:mypasswordQproxy.crawlera.com:8010 











除了 HTTP 代理 外 ，Crawlera 还 可 以 通过 Scrapy 的 中 间 件 组 件 方式 使 


73 进 阶 设置 


现在 ， 我 们 要 探讨 一 些 Scrapy 中 不 太 常 见 的 方面 ， 以 及 Scrapy 扩 展 
的 相关 设置 ， 后 续 章节 中 会 详细 介绍 这 些 内 容 。 这 些 进 阶 设置 如 图 7.2 
所 示 。 
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图 7.2”Scrapy 进 阶 设 置 
7.3.1 项 目 相 关 设 置 


在 这 里 可 以 找到 一 些 与 具体 项 目 相 关 的 管理 设置 ， 如 
BOT_NAME、SPIDER_MODULES 等 。 你 可 以 快速 浏览 一 下 这 些 设 置 的 文档 ， 
因为 它们 会 提升 具体 用 例 的 生产 效率 ， 不 过 通常 情况 下 ，Scrapy 的 
startproject 和 genspider 命 令 都 已 经 提供 了 合理 的 默认 值 ， 即 使 不 显 式 
修改 它们 ， 也 能 很 好 地 运行 。 邮 件 相 关 的 设置 ， 比 如 MAIL_FROM， 可 以 
让 你 配置 Mailsender 类 ， 该 类 目前 用 于 统计 邮件 信息 (另外 参见 
STATSMAILER_RCPTS) 以 及 内 存 使 用 信息 (另外 参见 
MEMUSAGE NOTIFY MAIL) 。 还 有 两 个 环境 变量 : SCRAPY SETTINGS MODULE 
以 及 SCRAPY_PROJECT， 可 以 让 你 调整 Scrapy 项 目 与 其 他 项 目 集 成 的 方 
式 ， 比 如 Django 项 目 。scrapy.cfg 还 允许 你 调整 设置 模块 的 名 称 。 


7.3.2 ”Scrapy 扩 展 设置 


这 些 设置 能 够 让 你 扩展 并 修改 Scrapy 的 几乎 所 有 方面 。 这 些 设置 中 
最 重要 的 当 属 ITEM_PIPELINES。 它 可 以 让 你 在 项 目 中 使 用 Item 处 理 管 
道 。 第 9 章 会 看 到 更 多 的 例子 。 除 了 管道 之 外 ， 还 可 以 通过 不 同 的 方式 
扩展 Scrapy， 其 中 一 些 将 会 在 第 8 章 中 进行 总 结 。coMMANDS_MoDULE 人 多 许 
我 们 添加 常用 命令 。 比 如 ， 可 以 在 properties/hi.py 文 件 中 添加 如 下 内 
— 














from scrapy.commands import ScrapyCommand 
class Command(ScrapyCommand) : 
default_settings = {'LOG_ENABLED': False} 
def run(self, args, opts): 
print("hello") 


当 在 settings.py 文 件 中 添加 coMMANDS_MOoDULE='properties.hi' 时 ， 
就 激活 了 这 个 小 命令 ， 我 们 可 以 在 Scrapy 帮 助 中 看 到 它 ， 并 且 通 过 
scrapy hi 运行 。 在 命令 的 default_settings 中 定义 的 设置 ， 会 被 合并 到 
项 目的 设置 当中 ， 并 有 履 盖 默认 值 ， 不 过 其 优先 级 低 于 settings,.py 文 件 
或 命令 行 中 设 定 的 设置 。 


Scrapy 使 用 -_BASsE 字 典 《〈 比 如 FEED_EXPORTERS_BASE) 存储 不 同 框架 
扩展 的 默认 值 ， 并 人 允许 我 们 在 settings,py 文 件 或 命令 行 中 ， 通 过 设置 








它们 的 非 -_BASE 版 本 (比如 FEED_EXPORTERS) 进行 自 定义 。 


最 后 ，Scrapy 使 用 DowNLOADER、SCHEDULER 等 设置 ， 保 存 系统 基本 组 
件 的 包 / 类 名 。 我 们 可 以 继承 默认 的 下 载 器 
(scrapy.core.downloader.Downloader) , 重 载 一 些 方法 ， 然 后 
将 DowNLOADER 设 置 为 自 定 义 的 类 。 这 样 可 以 让 开发 者 大 胆 地 对 新 特性 进 
行 实验 ， 并 且 可 以 简化 目 动 化 测试 过 程 ， 不 过 除非 你 明确 了 解 上 自己 做 的 
事情 ， 否 则 不 要 轻易 修改 这 些 设置 。 


7.3.3 下载 调 优 


RETRY_*、 REDIRECT_* 以 及 METAREFRESH_* 设 置 分 别 用 于 配置 重 试 、 
重 定向 以 及 元 刷新 中 间 件 。 例 如 ， 将 REDIRECT_PRIORITY_ADJUST 设 为 2， 
意味 着 每 次 发 生 重 定 同时 ， 新 请 求 将 会 在 所 有 非 重 定 同 请 求 完成 服务 后 
才 会 被 调度 ;而 将 REDIRECT_MAX_TIMES 设 置 为 20， 则 表示 在 执行 20 次 重 
定 问 后 ， 下 载 器 将 会 放弃 尝试 ， 并 返回 目前 所 见 到 的 内 容 。 这 些 设置 在 
不 取 一 些 运 行 不 太 正 党 的 网 站 时 非常 有 用 ， 不 过 在 大 多 数 情况 下 ， 默 认 
值 已 经 可 以 提供 很 好 的 服务 了 。 它 同样 也 适用 于 


HTTPERROR_ALLOWED_CODES 以 及 URLLENGTH_LIMIT。 
7.3.4” 目 动 限 速 扩展 设置 


AUTOTHROTTLE_* 设 置 用 于 启用 并 配置 自动 限 束 扩展。 虽然 对 它 有 很 
大 期 望 ， 但 从 实践 来 看 ， 我 发 现 它 往往 有 些 保守 ， 不 容易 调整 。 它 使 用 
下 载 延 迟 ， 来 了 解 我 们 和 目标 服务 器 的 负载 情况 ， 并 据 此 调整 下 载 器 的 
延迟 。 如 果 你 很 难 找到 powNLoAp_DELAY 的 最 佳 值 〈 默 认为 0) ， 就 会 发 
现 该 模块 很 有 用 。 


73.5 ”内 存 使 用 扩展 设置 


MEMUSAGE_* 设 置 用 于 启用 并 配置 内 存 使 用 扩展 。 当 超出 内 存 限制 
时 ， 将 会 关闭 爬虫 。 当 运行 在 共享 环境 时 ， 该 设置 非常 有 用 ， 因 为 此 时 
需要 非常 礼貌 的 行为 。 大 多 数 情况 下 ， 你 可 能 会 发 现 它 只 有 在 接收 报警 
邮件 时 才 会 有 用 ， 此 时 我 们 需要 将 MEMUSAGE_LIMIT_MB 设 置 为 0， 禁 用 关 
闭 息 虫 的 功能 。 该 扩展 只 在 类 UNIX 平 台 上 适用 。 


MEMDEBUG_ENABLED 和 MEMDEBUG_NOTIFY 用 于 启用 并 配置 内 存 调试 扩 
展 ， 在 候 虫 关闭 时 打印 出 仍然 存活 的 引用 数量 。 总 之 ， 和 追踪 内 存 泄露 不 
































是 一 件 简 单 而 有 趣 的 事情 (好 吧 ， 它 还 是 有 一 些 乐 趣 的 ) 。 我 们 可 以 阅 
i Debugging memory leaks with trackref 这 篇 优秀 的 文档 ， 了 解 更 多 内 存 
泄露 排查 的 方法 ， 不 过 最 重要 的 建议 是 ， 保 持 你 的 爬虫 相对 简短 、 批 量 
处 理 ， 并 且 需 要 根据 服务 器 的 能 力 运 行 。 我 认为 没有 什么 好 的 理由 可 以 
让 我 们 批量 运行 超过 几 千 页 或 几 分 钟 。 


7.3.6 日 志和 调试 


最 后 ， 还 有 一 些 日 志和 调试 功能 。LoG_ENCODING、L0G_DATEFORMAT 
和 LoG_FORMAT 可 以 用 来 调整 日 志 格 式 ， 当 准备 使 用 日 志 管 理解 决 方案 时 
《比如 Splunk、Logstash 和 Kibana) ， 会 发 现 这 些 设 置 非 常 有 
用 。pDuPEFILTER_DEBUG 和 CooKIES__”DEBUG 将 会 帮助 你 调试 相对 复杂 的 情 


况 ， 比 如 得 到 的 请 求 数 少 于 预期 或 会 话 意外 丢失 。 








74 本 章 小 结 


通过 阅读 本 章 ， 我 相信 和 与 从 头 开 始 编写 爬虫 相 比 ， 你 能 体会 到 使 用 
Scrapy 功 能 所 融 来 的 深度 和 广度 。 如 果 你 想 调整 或 扩展 Scrapy 的 功能 ， 
可 以 有 很 多 选项 ， 我 们 将 会 在 下 一 章 中 看 到 它们 。 


第 8 章 ”Scrapy 编 程 





到 目前 为 止 ， 我 们 编写 的 爬虫 主要 用 于 定义 讨 取 数据 源 的 方式 以 及 
如 何 从 中 抽取 信息 。 除 了 扑 虫 外 ，Scrapy 还 提供 了 能 够 调整 其 大 多 数 方 
面 功能 的 机 制 。 比 如 ， 你 可 能 会 发 现 自己 经 常 在 处 理 如 下 的 一 些 问题 。 


1. 你 需要 从 同一 个 项 目的 其 他 扑 虫 中 复制 、 粘 贴 大 量 代码 。 重 复 
的 代码 与 数据 更 加 相关 《比如 ， 执 行 字段 计算 ) ， 而 不 是 数据 源 。 


2. 你 需要 编写 脚本 ， 对 Item 进 行 后 处 理 ， 执 行 像 删除 重复 条 目 或 
后 置 处 理 值 的 事情 。 


3. 你 在 不 同 的 项 目 中 有 重复 的 代码 ， 用 于 处 理 基 础 架构 。 比 如 ， 
你 可 能 需要 登录 并 向 专 有 仓库 传输 文件 ， 回 数据库 中 添加 Item 或 在 爬虫 
执行 完成 时 触发 后 置 处 理 操作 。 

4. 你 发 现 Scrapy 的 某 个 方面 与 你 希望 的 功能 并 不 完全 一 致 ， 你 想 
在 自己 的 大 部 分 项 目 中 使 用 自 定 义 或 变通 的 方案 。 


Scrapy 开 发 痢 了 所 设计 的 架构 ， 能 够 为 我 们 解决 这 些 弟 见 的 问题 。 我 
们 将 会 在 本 章 后 续 部 分 研究 该 架构 。 不 过 我 们 首先 介绍 支持 Scrapy 的 引 
擎 ， 该 引擎 叫 作 Twisted 。 




















8.1  Scrapy 是 一 个 Twisted 心 用 


Scrapy 是 一 个 内 置 使 用 了 Python 的 Twisted 框 架 的 抓 取 应 用 。Twisted 
确实 有 些 与 众 不 同 ， 因 为 它 是 事件 驱动 的 ， 并 且 辟 励 我 们 编写 异步 代 
码 。 习 惯 它 需要 一 些 时 间 ， 不 过 我 们 将 通过 只 学 习 和 Scrapy 有 关 的 部 
分 ， 从 而 让 任务 变 得 相对 简单 一 些 。 我 们 还 可 以 在 错误 处 理 方面 轻松 一 
ee 

该 部 分 。 


让 我 们 从 头 开 始 。Twisted 与 众 不 同 是 因为 它 的 主要 口号 。 


























在 任何 情况 下 ， 都 不 要 编写 阻塞 的 代码 。 























代码 阻 豆 的 影响 很 严重 ， 而 可 能 造成 代码 阻塞 的 原因 包括 : 


。 代码 需要 访问 文件 、 数 据 库 或 网 络 ; 
o 代码 需要 派生 新 进程 并 消费 其 输出 ， 比 如 运行 shell 命 令 ; 
© 代码 需要 执行 系统 级 操作 ， 比 如 等 竺 系统 队列 。 


Twisted 提 供 的 方法 允许 我 们 执行 上 述 所 有 操作 甚至 更 多 操作 时 ， 
无 需 再 阻塞 代码 执行 。 


为 了 展示 两 种 方式 的 不 同 ， 我 们 假设 有 一 个 典型 的 同步 抓 取 应 用 
〈 见 图 8.1)》 。 假 设 该 应 用 包含 4 个 线程 ， 并 且 在 一 个 给 定 的 时 刻 ， 其 中 





3 个 线程 处 于 阻塞 状态 ， 用 于 等 待 啊 应 ， 而 另 一 个 线程 被 阻塞 ， 用 于 执 
行 数据 库 写 访问 以 保存 Item。 在 任何 给 定时 刻 ， 很 有 可 能 无 法 找到 抓 取 
应 用 的 一 个 执行 其 他 事情 的 线程 ， 只 能 等 竺 一 些 阻 塞 操 作 完成 。 当 阻 竖 
操作 完成 时 ， 一 坚 计 算 操作 可 能 占用 几 微 秒 ， 然 后 线程 再 次 被 阻 守 ， 执 
行 其 他 阻 豆 操作 ， 这 很 可 能 持续 至 少儿 坚 秒 的 时 间 。 总 体 来 说 ， 服 务 需 
不 会 是 空 帮 的 ， 因 为 它 运 行 了 几 十 个 应 用 程序 ， 并 使 用 了 上 二 个 线程 ， 
因此 ， 在 一 些 细致 的 调 优 后 ，CPU 才 能 够 合理 利用 。 


多 线程 UE): 
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图 8.1 多 线程 代码 和 Twisted 异 步 代 码 的 对 比 


Twisted/Scrapy 的 方式 更 倾 回 于 尽 可 能 使 用 单线 程 。 它 使 用 现代 操 
作 系 统 的 W/O 复 用 功能 (参见 select()、poll() 和 epol1()) 作为 “ 挂 起 
器 ”。 在 通常 会 有 阻塞 操作 的 地 方 ， 比 如 result = i block(). Twisted 
提供 了 一 个 可 以 立即 返回 的 替代 实现 。 不 过 ， 它 并 不 是 返回 真实 值 ， 而 
是 返回 一 个 hook， 比 如 deferred = i dont_block()， 在 这 里 可 以 挂 起 任 
何 想 要 运行 的 功能 ， 而 不 用 管 什 么 时 候 返 回 值 可 用 《〈 比 
如 ，deferred.addcallback(process_result)) 。 一 个 Twisted 应 用 是 由 
一 组 此 类 延迟 运行 的 操作 组 成 的 。Twisted 唯 一 的 主线 程 被 称 为 Twisted 
事件 反应 绒线 程 ， 用 于 监控 挂 起 器 ， 等 待 某 个 资源 变 为 可 用 《比如 ， 服 
务 器 返回 响应 到 我 们 的 Request 中 ) 。 当 该 事件 发 生 时 ， 将 会 触发 链 中 
最 前 面 的 延迟 操作 ， 执 行 一 些 计 算 ， 然 后 依次 触发 下 面 的 操作 。 部 分 延 
述 操作 可 能 会 引发 进一步 的 1/O 操 作 ， 这 样 就 会 造成 延迟 操作 链 回 到 挂 
起 器 中 ， 如 果 可 能 的 话 ， 还 会 释放 CPU 以 执行 其 他 功能 。 由 于 我 们 使 用 
的 是 单线 程 ， 因 此 不 会 存在 额外 线程 所 需 的 上 下 文 切换 以 及 保存 资源 
《如 内 存 ) 所 珊 来 的 开销 。 也 就 是 说 ,我 们 使 用 该 非 阻 塞 架构 时 ， 只 需 
一 个 线程 ， 束 能 达到 类 似 使 用 数 千 个 线程 才能 达到 的 性 能 。 


坦率 地 说 ， 操 作 系 统 开 发 人 员 花 络 了 数 十 年 的 时 间 优 化 线程 操作 ， 
以 使 它们 速度 更 快 。 性 能 的 争论 没有 以 前 那么 强烈 了 。 有 一 件 大 家 都 认 
同 的 事情 是 ， 为 复杂 应 用 编写 正确 的 线程 安全 代码 非常 困难 。 当 你 元 服 
考虑 延迟 /回调 所 带 来 的 最 初 神 击 后 ， 会 发 现 Twisted 代 码 要 比 多 线程 代 
码 简 单 得 多 。inlinecallbacks 生 成 堪 工具 使 得 代码 更 加 简单 ， 我 们 将 会 
在 后 续 章 节 进 一 步 讨论 它 。 























可 以 说 ， 到 目前 为 止 ， 最 成 功 的 非 阻塞 MO 系统 是 Node.js， 主 要 是 因为 
它 以 高 性 能 和 并 发 性 作为 出 发 点 ， 没 有 人 去 争论 这 是 好 事 还 是 坏事 。 每 个 
Node.js 应 用 都 只 用 非 阻 塞 API。 在 Java 的 世界 里 ，Netty 可 能 是 最 成 功 的 NIO 框 












































架 驱 动 应 用 ， 比 如 Apache 


Storm 和 Spark。 C++ 11 的 std: :future 和 


std::promise《〈 与 延迟 操作 非常 类 似 ) 通过 使 用 libevent 或 纯 POSIX 这 些 库 ， 














使 得 编写 异步 代码 更 加 简单 。 








8.1.1 ”延迟 和 延迟 链 


延迟 机 制 是 Twisted 提 供 的 最 基础 的 机 制 ， 能 够 帮助 我 们 编写 弄 步 
代码 。Twisted API 使 用 延迟 机 制 ， 人 允许 我 们 定义 发 生 茶 些 事件 时 所 采取 


的 动作 序列 。 下 面 让 我 们 具体 看 一 下 。 


4! 





你 可 以 从 GitHub 上 获取 本 书 的 全 部 源 代码 。 如 果 想 要 下 载 本 书 代 码 ， 


可 以 使 用 git clone https://github.com/ scalingexcellence/scrapybook。 





























本 章 的 完整 代码 在 che8 目 录 中 ， 其 中 本 示例 的 代码 
在 che8/deferreds.py 文 件 中 ， 你 可 以 使 用 ./deferreds.,py 6 运行 该 代码 。 








可 以 使 用 Python 控 制 台 运行 如 下 的 交互 式 实验 。 


$ python 

>>> from twisted.internet import defer 
>>> # Experiment 1 

>>> d = defer.Deferred() 
>>> d.called 

False 

>>> d.callback(3) 

>>> d.called 

True 

>>> d.result 

3 





可 以 看 到 ，peferred 本 质 上 代表 的 是 一 个 无 法 立即 获取 的 值 。 当 触 


发 d 时 (调用 其 callback 方 法 ) ， 其 called 状 态 变 为 True， 而 result 属 性 
被 设置 为 在 回调 方法 中 设 定 的 值 。 


>>> # Experiment 2 
>>> d = defer.Deferred() 
>>> def foo(v): 
print "foo called" 
return v+1 


>>> d.addCallback( foo) 
<Deferred at Ox7f...> 
>>> d.called 

False 

>>> d.callback(3) 

foo called 

>>> d.called 

True 

>>> d.result 

4 


延迟 机 制 最 强大 的 功能 就 是 可 以 在 设 定 值 时 串联 其 他 要 被 调用 的 操 
作 。 在 上 面 的 例子 中 ， 添 加 了 一 个 foo() 函 数 作为 d 的 回调 函数 。 当 通过 
调用 callback(3) 触 发 d 时 ， 会 调用 函数 foo()， 打 印 消 息 ， 并 将 其 返回 值 
设 为 d 最 终 的 result 值 。 


>>> # Experiment 3 
>>> def status(*ds): 
ve return [(getattr(d, 'result', "N/A"), len(d.callbacks)) for d in 
ds] 
>>> def b_callback(arg): 
2 print "b callback called with arg =", arg 
SE return b 
>>> def on done(arg): 
print "on done called with arg =", arg 
return arg 


>>> 4 Experiment 3.a 

>>> a = defer.Deferred() 

>>> b = defer.Deferred() 

>>> a.addCallback(b callback).addCallback(on done) 
>>> status(a, b) 

[('N/A', 2), ('N/A', 0)] 

>>> a.callback(3) 

b callback called with arg = 3 

>>> status(a, b) 

[(«Deferred at 0x10e7209e0>, 1), ('N/A', 1)] 
>>> b.callback(4) 

on done called with arg = 4 

>>> status(a, b) 

[(4, ©), (None, 0)] 





该 示例 展示 了 更 加 复杂 的 延迟 行为 。 我 们 看 到 该 示例 中 有 一 个 普通 


的 延迟 a， 和 之 前 例子 中 创建 的 一 样 ， 不 过 这 次 它 有 两 个 回调 方法 。 第 
一 个 是 b_callback()， 返 回 值 是 另 一 个 延迟 bp， 而 不 是 一 个 值 。 第 二 个 
是 on_done() 打 印 函 数 。 我 们 还 有 一 个 status() 函 数 ， 用 于 打印 延迟 状 
态 。 在 两 个 延迟 完成 初始 化 之 后 ， 得 到 了 相同 的 状态 : [('N/A', 2); 
('N/A', 6)]， 这 意味 着 两 个 延迟 都 还 没有 被 触发 ， 并 且 第 一 个 延迟 有 
两 个 回调 ， 而 第 二 个 没有 回调 。 然 后 ， 当 触发 第 一 个 延迟 时 ， 我 们 得 到 
了 一 个 奇怪 的 [(<Deferred at 0x1ge7209eg>，1)，('NMA'，1)] 状 态 ， 可 
以 看 出 现在 a 的 值 是 一 个 延迟 《实际 上 束 是 b 延 迟 ) ， 并 且 目 前 它 还 有 一 
个 回调 ， 这 种 情况 是 合理 的 ， 因 为 b_callback() 已 经 被 调用 ， 只 剩 下 了 
on_done()。 意 外 的 情况 是 现在 b 也 包含 了 一 个 回调 。 实 际 上 是 在 后 台 注 
册 了 一 个 回调 ， 一旦 触发 5， 就 会 更 新 它 的 值 。 当 其 发 生 时 ，on_done() 
依然 会 被 调用 ， 并 且 最 终 状 态 会 是 [(4，9)，(None，9)]， 和 我 们 预期 的 





>>> # Experiment 3.b 

>>> a = defer.Deferred() 

>>> b = defer.Deferred 

>>> a.addCallback(b_callback) .addCallback(on_done) 
>>> status(a, b) 

[('N/A', 2), ('N/A', 0)] 

>>> b.callback(4) 

>>> status(a, b) 

[('N/A', 2), (4, 0)] 

>>> a.callback(3) 

b callback called with arg - 3 
on done called with arg = 4 
>>> status(a, b) 

[(4, ©), (None, 0)] 


而 另 一 方面 ， 如 果 像 Experiments.b 所 示 ，b 先 于 a 被 触发 ， 状 态 将 会 
变 为 [('N/A'，2)，(4，0)]， 然 后 当 a 被 触发 时 ， 两 个 回调 都 会 被 调用 ， 
最 终 状 态 与 之 前 一 样 。 有 意思 的 是 ， 不 管 顺序 如 何 ， 最 终结 果 都 是 相同 
的 。 两 个 例子 唯一 的 不 同 是 ， 在 第 一 个 例子 中 ，b 值 保持 延迟 的 时 间 更 
长 一 些 ， 因 为 它 是 第 二 个 被 触发 的 ， 而 在 第 二 个 例子 中 ，b 首 先 被 触 
发 ， 并 且 从 该 时 刻 起 ， 它 的 值 束 会 在 需要 时 被 立即 使 用 。 


此 时 ， 你 应 该 已 经 对 什么 是 延迟 、 它 们 是 如 何 串 联 起 来 表示 尚 不 可 
用 的 值 ， 有 了 不 错 的 理解 。 我 们 将 通过 第 4 个 例子 结束 这 一 部 分 的 研 
究 ， 在 该 示例 中 ， 将 展示 如 何 触发 依赖 于 多 个 其 他 延迟 的 方法 。 在 
Twisted 的 实现 中 ， 将 会 使 用 defer .DeferredList 类 。 











>>> # Experiment 4 
>>> deferreds = [defer.Deferred() for i in xrange(5)] 


>>> join = defer.DeferredList(deferreds) 

>>> join.addCallback(on_done) 

>>> for i in xrange(4): 

— deferreds[i].callback(i) 

>>> deferreds[4].callback(4) 

on done called with arg - [(True, 0), (True, 1), (True, 2), 
(True, 3), (True, 4)] 


可 以 注意 到 ， 尽 管 for 循 环 语句 只 触发 了 5 个 延迟 中 的 4 
人 
就 是 说 ， "mouere ny le bese We on_done() 的 
参数 是 一 个 元 组 组 成 的 列表 ， 每 个 元 组 对 应 一 个 延迟 ， 其 中 包含 两 个 元 
分 别 是 表示 成 功 的 True 或 表示 失败 的 False， 以 及 延迟 的 值 。 


8.1.2 ”理解 Twisted 和 非 阻 塞 IO 一 ”一 个 Python 故事 


既然 我 们 已 经 掌握 了 原 语 ， 接 下 来 让 我 告诉 你 一 个 Python 的 小 故 
事 。 该 故事 中 所 有 人 物 均 为 虚构 ， 如 有 雷同 纯 属 巧合 。 


# ~*~ Twisted - A Python tale ~*~ 








from time import sleep 


# Hello, I'm a developer and I mainly setup Wordpress. 
def install wordpress(customer): 
# Our hosting company Threads Ltd. is bad. I start installation and... 
print "Start installation for", customer 
# ...then wait till the installation finishes successfully. It is 
# boring and I'm spending most of my time waiting while consuming 
# resources (memory and some CPU cycles). It's because the process 
# is *blocking*. 
sleep(3) 
print "All done for", customer 


# I do this all day long for our customers 
def developer day(customers): 
for customer in customers: 
install wordpress(customer) 


developer day(["Bill", "Elon", "Steve", "Mark"]) 


运行 该 代码 。 


$ ./deferreds.py 1 

------ Running example 1 ------ 
Start installation for Bill 
All done for Bill 

Start installation 


* Elapsed time: 12.03 seconds 





我 们 得 到 的 是 顺序 的 执行 。4 位 客户 ， 每 人 执行 3 秒 ， 意 味 着 总 共 需 
要 12 秒 的 时 间 。 这 种 方式 的 扩展 性 不 是 很 好 ， 因 此 我 们 将 在 第 二 个 例子 
中 添加 多 线程 。 


import threading 








# The company grew. We now have many customers and I can't handle 
the 

# workload. We are now 5 developers doing exactly the same thing. 
def developers day(customers): 


# But we now have to synchronize... a.k.a. bureaucracy 
lock = threading.Lock() 
# 


def dev_day(id): 
print "Goodmorning from developer", id 
# Yuck - I hate locks... 
lock.acquire() 
while customers: 
customer = customers.pop(0) 
lock.release() 
# My Python is less readable 
install wordpress(customer ) 
lock.acquire() 
lock.release() 
print "Bye from developer", id 
# We go to work in the morning 
devs = [threading.Thread(target-dev day, args-(i,)) for i in 
range(5)] 
[dev.start() for dev in devs] 
# We leave for the evening 
[dev.join() for dev in devs] 


# We now get more done in the same time but our dev process got more 

# complex. As we grew we spend more time managing queues than doing dev 
4 work. We even had occasional deadlocks when processes got extremely 
# complex. The fact is that we are still mostly pressing buttons and 

# waiting but now we also spend some time in meetings. 

developers day(["Customer %d" % i for i in xrange(15)]) 


按照 下 述 方式 运行 这 段 代 码 。 


$ ./deferreds.py 2 

------ Running example 2 ------ 

Goodmorning from developer OGoodmorning from developer 
1Start installation forGoodmorning from developer 2 
Goodmorning from developer 3Customer 0 


from developerCustomer 13 3Bye from developer 2 
* Elapsed time: 9.02 seconds 


在 这 段 代 码 中 ， 使 用 了 5 个 线程 并 行 执行 。15 个 客户 ， 每 人 3 秒 ， 总 
共 需 要 执行 45 秒 ， 而 当 使 用 5 个 并 行 的 线程 时 ， 最 终 只 花费 了 9 秒 钟 。 不 


过 代码 有 些 难 看 。 现 在 代码 的 一 部 分 只 用 于 管理 并 发 性 ， 而 不 是 专注 于 
算法 或 业务 逻辑 。 为 外 ， 输 出 也 变 得 混乱 并 且 可 读 性 很 差 。 即 使 是 让 很 
简单 的 多 线程 代码 正确 运行 ， 也 有 很 大 难度 ， 因 此 我 们 将 转 为 使 用 





Twisted. 
# For years we thought this was all there was... We kept hiring more 
# developers, more managers and buying servers. We were trying harder 
# optimising processes and fire-fighting while getting mediocre 
# performance in return. Till luckily one day our hosting 
# company decided to increase their fees and we decided to 
# switch to Twisted Ltd.! 


from twisted.internet import reactor 
from twisted.internet import defer 
from twisted.internet import task 


# Twisted has a slightly different approach 
def schedule install(customer): 


4 They are calling us back when a Wordpress installation completes. 
# They connected the caller recognition system with our CRM and 
# we know exactly what a call is about and what has to be done 
4 next. 
# 
# We now design processes of what has to happen on certain events. 
def schedule_install_wordpress(): 

def on_done(): 

print "Callback: Finished installation for", customer 

print "Scheduling: Installation for", customer 

return task.deferLater(reactor, 3, on_done) 
# 
def all_done(_): 

print "All done for", customer 


For each customer, we schedule these processes on the CRM 
and that 

is all our chief-Twisted developer has to do 

= schedule install wordpress() 

.addCallback(all done) 


dk OQ. OQ. dt db dk dt 


return d 


4 Yes, we don't need many developers anymore or any synchronization. 
# ~~ Super-powered Twisted developer ~~ 
def twisted developer day(customers): 


print "Goodmorning from Twisted developer" 

# 

# Here's what has to be done today 

work = [schedule_install(customer) for customer in customers] 
# Turn off the lights when done 

join = defer.DeferredList (work) 

join.addCallback(lambda _: reactor.stop()) 

# 

print "Bye from Twisted developer!" 


# Even his day is particularly short! 
twisted_developer_day(["Customer %d" % i for i in xrange(15)]) 


# Reactor, our secretary uses the CRM and follows-up on events! 
reactor.run() 


现在 运行 该 代码 。 


$ ./deferreds.py 3 

------ Running example 3 ------ 
Goodmorning from Twisted developer 
Scheduling: Installation for Customer 0 


Scheduling: Installation for Customer 14 

Bye from Twisted developer! 

Callback: Finished installation for Customer 0 
All done for Customer 0 

Callback: Finished installation for Customer 1 
All done for Customer 1 


All done for Customer 14 
* Elapsed time: 3.18 seconds 








此 时 ， 我 们 在 没有 使 用 多 线程 的 情况 下 ， 就 获得 了 良好 运行 的 代 
码 ， 以 及 漂亮 的 输出 结果 。 我 们 并 行 处 理 了 所 有 的 15 位 客户 ， 也 就 是 
说 ， 应 当 执行 45 秒 的 计算 只 花费 了 3 秒 钟 ! 技巧 就 是 将 所 有 阻塞 调用 的 
sleep() 蔡 换 为 Twisted 对 应 的 task.deferLater() 以 及 回调 函数 。 由 于 处 
理 现 在 发 生 在 其 他 地 方 ， 因 此 可 以 训 不 费力 地 同时 为 15 位 客户 服务 。 



































刚才 提 到 前 面 的 处 理 此 时 是 在 其 他 地 方 执 行 的 。 这 是 在 作 浆 吗 ? 答案 
当然 不 是 。 算 法 计算 仍然 在 CPU 中 人 处理， 不 WA GS RCH, CPU 
操作 速度 很 快 。 因 此 ， 将 数据 传 给 CPU、 从 一 个 CPU 发 送 或 存储 数据 到 另 一 
个 CPU 中 ， 占 据 了 大 部 分 时 间 。 我 们 使 用 非 阻塞 的 MO 操作 ， 为 CPU 节省 了 这 
些 时 间 。 这 些 操作 ， 尤 其 是 像 task.deferLater() 这 样 的 操作 ， 会 在 数据 传输 
完成 后 触发 回调 函数 。 


















































另 一 个 需要 非常 注意 的 地 方 是 Goodmorning from Twisted 
developer LÅ K Bye from Twisted developer !JH Ei. 在 代码 启动 时 ， 它 
们 就 都 被 立即 打印 了 出 来 。 如 果 代 码 过 早 地 到 达 该 点 ， 那 么 应 ME 
什么 时 候 运 行 的 呢 ? 答 案 是 Twisted 应 用 (包括 Scrapy)〉 完全 运 


在 reactor .run() 上 ! 当 调 用 该 方法 时 ， 必 须 拥 有 应 用 程序 预期 使 用 的 
所 有 可 能 的 延迟 链 《〈 相 当 于 前 面 故事 中 建立 CRM 系 统 的 步骤 和 流 
FE) 。 你 的 reactor.run()〈 故 事 中 的 秘书 ) 执行 事件 监控 以 及 触发 回 
调 。 

















reactor 的 主要 规则 是 : 只 要 是 快速 的 非 阻 塞 操 作 就 可 以 做 任何 事 。 





非常 好 ! 不 过 虽然 代码 没有 了 多 线程 时 的 混乱 输出 ， 但 是 这 里 的 回 
调 函 数 还 是 有 一 些 难 看 ! 因此 ， 我 们 将 引入 下 一 个 例子 。 


# Twisted gave us utilities that make our code way more readable! 
Qdefer.inlineCallbacks 
def inline install(customer): 

print "Scheduling: Installation for", customer 

yield task.deferLater(reactor, 3, lambda: None) 

print "Callback: Finished installation for", customer 

print "All done for", customer 


def twisted developer day(customers): 
. same as previously but using inline install() 
instead of schedule install() 


twisted developer day(["Customer 96d" % i for i in xrange(15)]) 
reactor.run() 


以 如 下 方式 运行 该 代码 。 


$ ./deferreds.py 4 
. exactly the same as before 


上 述 代 码 和 之 前 那个 版 本 的 代码 看 起 来 基本 一 样 ， 不 过 更 加 优 
雅 。inlinecallbacks 生 成 器 使 用 了 一 些 Python 机 制 让 inline_install() 
的 代码 能 够 暂停 和 恢复 。inline_install( ) 变 为 延迟 函数 ， 并 是 为 每 位 


客户 并 行 执行 。 每 当 执 行 yield 时 ， 执 行 会 在 当前 的 inline_instal1() 实 
例 上 暂停 ， 当 yield 的 延迟 函数 触发 时 再 恢复 。 


现在 唯一 的 问题 是 ， 如 果 不 是 只 有 15 个 客户 ， 而 是 10000 个 ， 该 代 
码 会 无 耻 地 同时 启动 10000 个 处 理 序列 〈 调 用 HTTP 请 求 、 数 据 库 写 操作 
等 ) 。 这 样 可 能 会 正常 运行 ， 也 可 能 造成 各 种 各 样 的 失败 。 在 大 规模 并 
发 应 用 中 ， 比 如 Scrapy， 一 般 需 要 将 并 发 量 限制 到 可 接受 的 水 平 。 在 本 
例 中 ， 可 以 使 用 task.cooperator() 实 现 该 限制 。Scrapy 使 用 了 同样 的 机 
制 在 item 处 理 管道 中 限制 并 发 量 (coONCURRENT_ITEMS 设 置 ) 。 


Qdefer.inlineCallbacks 
def inline install(customer): 
. Same as above 





# The new "problem" is that we have to manage all this concurrency to 
# avoid causing problems to others, but this is a nice problem to have. 
def twisted developer day(customers): 

print "Goodmorning from Twisted developer" 

work = (inline install(customer) for customer in customers) 

# 

# We use the Cooperator mechanism to make the secretary not 

# service more than 5 customers simultaneously. 

coop = task.Cooperator() 

join = defer.DeferredList([coop.coiterate(work) for i in xrange(5)]) 

# 

join.addCallback(lambda _: reactor.stop()) 

print "Bye from Twisted developer!" 


twisted developer day(["Customer %d" % i for i in xrange(15)]) 
reactor.run() 


# We are now more lean than ever, our customers happy, our hosting 
# bills ridiculously low and our performance stellar. 


# ~*~ THE END ~*~ 


运行 该 代码 。 


$ ./deferreds.py 5 

------ Running example 5 ------ 
Goodmorning from Twisted developer 

Bye from Twisted developer! 

Scheduling: Installation for Customer 0 


Callback: Finished installation for Customer 4 
All done for Customer 4 
Scheduling: Installation for Customer 5 


Callback: Finished installation for Customer 14 
All done for Customer 14 
* Elapsed time: 9.19 seconds 


可 以 看 到 ， 现 在 有 类 似 于 5 个 客户 的 处 理 槽 。 如 果 想 要 处 理 一 个 新 
的 客户 ， 只 有 在 存在 空 槽 时 才 可 以 开始 ， 实 际 上 ， 在 这 个 例子 中 客户 处 
理 的 时 间 总 是 相同 的 〈3 秒 ) ， 因 此 会 造成 5 位 客户 会 在 同一 时 间 被 批量 
处 理 的 情况 。 最 后 ， 我 们 得 到 了 和 多 线程 示例 中 相同 的 性 能 ， 不 过 现在 
只 使 用 了 一 个 线程 ， 代 码 更 加 简单 并 且 更 容易 正确 编写 。 


PLR HAH, MERER Y X F Twisted iE ENO EN 
一 份 非常 严谨 的 介绍 。 








8.2 Scrapy2E AJ EE 


图 8.2 所 示 为 Scrapy 的 架构 。 


process spider inputl) 


Spider 中 国 件 


process start_requests(] 


process response() 
process_exception(| 








图 8.2 Scrapy2& fJ 


你 可 能 已 经 注意 到 ， 该 架构 运行 在 我 们 熟悉 的 三 类 对 象 之 
E: Request、Response 以 及 Item。 我 们 的 疏 虫 就 在 架构 的 核心 位 置 ， 它 
们 创建 Request， 处 理 Response， 生 成 Ttem 和 更 多 的 Request。 


疏 虫 生成 的 每 个 Item 都 使 用 其 process_item() 方 法 由 Item 管 道 序列 
执行 后 置 处 理 。 通 常情 况 下 ，process_item( ) 会 修改 Item， 然 后 以 返回 
这 些 Item 的 方式 将 其 传 给 后 续 的 管道 。 有 时候 (比如 元 余 或 非法 数据 的 
情况 )〉， 我 们 可 能 需要 放弃 一 个 Item， 此 时 可 以 通过 抛 出 DropItem 异 常 
的 方式 实现 。 这 种 情况 下 ， 后 续 的 管道 将 不 会 再 接收 该 Iem。 如 果 我 们 
提供 了 open_spider( ) 和 /或 close_spider( ) 方 法 ， 那么 EESSI MHE 
开始 和 结束 爬虫 时 调用 该 方法 。 这 里 是 我 们 进行 初始 化 和 清理 工作 的 时 
机 。Item 管 道 通 常用 于 执行 问题 域名 或 基础 结构 的 操作 ， 比 如 清理 数 
据 、 回 数据 库 插 入 Item 等 。 你 还 会 发 现 上 自己 会 在 项 目 之 间 很 大 程度 地 复 
用 它们 ， 尤 其 是 当 处 理 基 础 架构 细节 时 。 第 4 章 中 使 用 过 的 Appery.io 管 
道 ， 即 通过 少量 配置 上 传 Ttem 到 Appery.io 的 工作 ， 就 是 用 Item 管 道 执 行 
基础 架构 工作 的 一 个 例子 。 


我 们 通 稼 会 从 疏 虫 发 送 Request， 并 得 到 返回 的 Response， 来 进行 工 
作 。Scrapy 以 透明 的 方式 负责 Cookie、 权 限 认 证 、 绥 存 等 ， 我 们 所 需要 
做 的 就 是 俩 尔 调整 一 些 设置 。 这 其 中 大 部 分 功能 是 在 下 载 器 中间 件 中 实 
现 的 。 它 们 通常 都 非常 复杂 ， 在 处 理 Request/Response 内 部 构件 时 有 着 
很 高 的 技巧 。 你 可 以 创建 自 定 义 的 中 间 件 ， 以 使 Scrapy 按 照 你 要 求 的 方 
式 处 理 Request。 通 常 ， 成 功 的 中 间 件 可 以 在 多 个 项 目 中 复 用 ， 并且 可 
以 同 其 他 Scrapy 开 发 者 提供 有 用 的 功能 ， 因 此 同 社 区 分 享 是 个 不 错 的 选 
择 。 你 没有 必要 经 常 编写 下 载 器 中 间 件 。 如 果 你 想 了 解 默 认 的 下 载 器 中 
间 件 ， 可 以 查看 Scrapy 的 Github 仓 库 中 settings/default_settings.py 文 
件 的 DOWNLOADER_MIDDLEWARES_BASE 设 置 。 


下 载 器 是 真正 执行 下 载 的 引擎 。 除 非 你 是 Scrapy 的 代码 页 献 者 ， 合 
则 不 要 修改 它 。 


有 时 候 ， 你 可 能 需要 编写 爬虫 中 间 件 〈 见 图 8.3) 。 这 些 中 间 件 在 
疏 虫 之 后 且 所 有 下 载 器 中 间 件 之 前 处 理 Request; 而 在 处 理 Response 时 ， 
则 是 相反 的 顺序 。 使 用 下 载 器 中 间 件 ， 可 以 做 很 多 事情 ， 比 如 重 写 所 有 
URL， 使 用 HTTPS 代 替 HITTP， 而 不 用 管 玲 虫 从 页 面 中 抽取 出 来 的 内 容 









































是 什么 。 它 可 以 实现 特定 于 项 目 需求 的 功能 ， 并 分 享 给 所 有 的 爬虫 。 下 
载 堪 中 间 件 和 疏 虫 中 间 件 最 主要 的 区 别 是 ， 当 下 载 右 中 间 件 获取 一 

个 Request 时 ， 只 会 返回 一 个 Response。 而 爬虫 中 间 件 可 以 在 对 某 些 
Request 不 感 兴 趣 时 舍弃 挥 它们 ， 或 者 对 每 个 输入 的 Request 都 发 出 多 
个 Request， 用 来 完成 你 的 应 用 程序 的 目标 。 可 以 说 爬虫 中 间 件 是 针对 
Redquest 和 Response 的 ， 而 Item 管 道 是 针对 ITtem 的 。 疏 虫 中 间 件 同样 也 接 
收 Item， 不 过 通常 情况 下 不 会 对 其 进行 修改 ， 因 为 在 Item 管 道中 进行 这 
些 操作 更 加 容易 。 如 果 你 想 了 解 默 认 的 扑 虫 中 间 件 ， 可 以 在 Scrapy 的 Git 
上 查看 settings/default_settings.py 文 件 的 SPIDER_MIDDLEWARES_BASE 
设置 。 
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图 8.3 ”中 间 件 架构 


最 后 还 有 一 个 部 分 是 扩展 。 扩 展 非 党 第 见 ， 实 际 上 其 常见 程度 仅 次 
于 Item 管 道 。 它 们 是 在 爬 取 工作 启动 时 加 载 的 普通 类 ， 可 以 访问 设置 、 
爬虫 、 注 册 回 调 信号 以 及 定义 上 自己 的 信号 。 信 号 是 一 类 基础 的 Scrapy 
API， 它 可 以 让 回调 函数 在 系统 中 发 生 某 些 事情 时 进行 调用 ， 比 如 Itenm 
被 抓 取 、 于 弃 时 或 息 虫 开启 时 。 有 很 多 非常 有 用 的 预定 义 信号 ， 我 们 将 
会 在 后 边 见 到 其 中 的 一 部 分 。 某 种 意义 上 讲 ， 扩 展 有 些 博 而 不 精 ， 它 能 
够 让 你 写 出 任何 可 以 想到 的 工具 ， 但 又 无 法 给 你 实际 的 帮助 〈 比 如 像 
Item 管 道 的 process_item() 方 法 ) 。 我 们 必须 将 其 hook 到 信号 上 上， 自己 
实现 需要 的 功能 。 例 如 ， 在 达到 指定 页 数 或 Item 个 数 后 停止 爬 取 ， 束 是 
通过 扩展 实现 的 。 如 果 想 要 了 解 默认 的 扩展 ， 可 以 从 Scrapy 的 Git 上 得 


Aq settings/default_settings i py 文件 的 EXTENSIONS_BASE 设 置 。 


更 严格 地 说 ，Scrapy 把 所 有 这 些 类 都 当 作 是 中 间 件 〈 通 过 
MiddlewareManager 类 的 子 类 管理 ) ， 人 允许 我 们 通过 实现 from_crawler() 
或 from_settings() 类 方法 ， 分 别 从 crawler 或 settings 对 象 初始 化 它 
们 。 由 于 settings 可 以 从 crawler 中 轻松 获取 Ccrawler.settings) , 
此 from_crawler() 是 更 加 流行 的 方式 。 如 果 不 需 要 settings 或 crawler， 
可 以 不 去 实现 它们 。 























表 8.1 可 以 帮助 你 在 针对 指定 问题 时 决定 最 好 的 机 制 |。 
表 8.1 





LA 

一 些 只 针对 于 我 正在 疏 取 的 网 站 的 内 容 posi eh 

修改 或 存储 Item__ 特定 领域 ， 可 能 在 项 目 间 复 用 um 
5 ij 














修改 或 丢弃 Request/response 一 一 特定 领域 ， 可 能 在 项 目 间 复 用 编写 息 虫 中 间 件 























执行 Request/Response 通用 , 比如 支持 一 些 定制 化 登录 模式 或 处 理 Cookie 的 
特定 方式 











编写 下 载 器 中 | 
件 
[| | 





























所 有 其 他 问题 展 | 


8.3 ”示例 1: 非常 简单 的 管道 


假设 我 们 有 一 个 包含 几 个 讨 虫 的 应 用 ， 以 Python 常见 格式 提供 疏 取 
日 期 。 数 据 库 需要 将 其 转 为 字符 溃 格 式 ， 以 便 进 行 索引 。 我 们 不 想 纺 辑 
疏 虫 ， 因 为 谎 虫 的 数量 比较 多 。 此 时 可 以 怎么 做 呢 ? 使 用 一 个 非常 简单 
ue UIS 执行 需要 的 转换 即 可 。 让 我 们 看 看 它 是 如 
可 工作 的 。 


from datetime import datetime 


class TidyUp(object): 
def process_item(self, item, spider): 
item['date'] = map(datetime.isoformat, item['date']) 
return item 





如 你 所 见 ， 这 里 只 有 一 个 包含 process_item() 方 法 的 简单 类 。 这 是 
我 们 为 了 这 个 简单 管道 所 需要 做 的 所 有 事情 。 我 们 可 以 复 用 第 3 章 中 的 
礁 虫 ， 将 前 面 的 代码 写 入 pipelines 目 录 的 tidyup,.py 文 件 中 。 





























可 以 将 这 个 Item 管 道 的 代码 放 到 任何 地 方 ， 不 过 为 其 他 
录 是 一 个 好 主意 。 


— 


建 一 个 单独 的 目 























现在 ， 需 要 编辑 项 目的 settings.py 文 件 ， 将 ITEM_PIPELINES 设 置 为 


ITEM_PIPELINES = {'properties.pipelines.tidyup.TidyUp': 100 } 





前 面 代码 字典 中 的 数字 100， 用 于 定义 管道 连接 的 顺序 。 如 果 忆 一 
个 管道 有 更 小 的 数值 ， 它 将 在 该 管道 之 前 优先 处 理 Item。 


yi 


— E 





本 示例 的 完整 代码 位 于 che8/properties 目 录 中 。 








M Z, m 
Jur, FY Wis TAM p. 
$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=90 
INFO: Enabled item pipelines: TidyUp 
DEBUG: Scraped from «200 ...property 000060.html» 


'date': ['2015-11-08T14:47:04.148968' ], 


MRNK, HAMEROFF E T. 


8.4 信和 与 


信号 提供 了 一 种 为 系统 中 发 生 的 事件 添加 回调 的 机 制 ， 比 如 当 疏 虫 
开局 时 或 当 item 被 抓 取 时 。 可 以 使 用 crawler.signals.connect() 方 法 
hook 到 它们 上 《下 一 节 将 会 给 出 使 用 它 的 一 个 示例 ) 。 信 号 总 共有 11 
个 ， 理 解 它 们 的 最 简单 方式 可 能 就 是 在 实践 中 看 到 和 它们。 我 创建 了 一 个 
项 目 ， 在 其 中 创建 了 一 个 扩展 ，hook 了 所 有 可 以 使 用 的 信号 。 另 外 ， 我 
还 创建 了 一 个 Item 管 道 、 一 个 下 载 右 和 一 个 谎 虫 中 间 件 ， 可 以 记录 所 有 
的 方法 调用 。 该 项 目 使 用 的 爬虫 非 稼 简单 ， 只 对 两 个 item 进 行 yield 控 
作 ， 然 后 抛 出 异常 。 


def parse(self, response): 
for i in range(2): 
item = HooksasyncItem() 
item['name'] = "Hello %d" % i 
yield item 
raise Exception("dead" ) 





在 第 二 个 item 中 ， 我 配置 了 Item 和 管道， 以 抛 出 DropItem 异 常 。 


ai 
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本 示例 的 完整 代码 可 以 从 cho8/hooksasync 得 到 。 





使 用 该 项 目 ， 我 们 可 以 更 好 地 理解 茶 个 信号 是 什么 时 候 发 出 的 。 请 
查看 如 下 执行 中 日 志 行 之 间 的 注释 〈 为 了 简短 起 见 ， 省 略 了 部 分 行 ) 。 





$ scrapy crawl test 
. many lines ... 
# First we get those two signals... 
INFO: Extension, signals.spider_opened fired 
INFO: Extension, signals.engine_started fired 
# Then for each URL we get a request_scheduled signal 
INFO: Extension, signals.request_scheduled fired 
...# when download completes we get response_downloaded 
INFO: Extension, signals.response_downloaded fired 
INFO: DownloaderMiddlewareprocess_response called for example.com 
# Work between response_downloaded and response_received 
INFO: Extension, signals.response_received fired 
INFO: SpiderMiddlewareprocess spider input called for example.com 
# here our parse() method gets called... and then SpiderMiddleware used 
INFO: SpiderMiddlewareprocess spider output called for example.com 
4 For every Item that goes through pipelines successfully... 
INFO: Extension, signals.item scraped fired 
# For every Item that gets dropped using the DropItem exception... 
INFO: Extension, signals.item dropped fired 
4 If your spider throws something else... 
INFO: Extension, signals.spider error fired 
# ... the above process repeats for each URL 
4... till we run out of them. then... 
INFO: Extension, signals.spider idle fired 
4 by hooking spider idle you can schedule further Requests. If you don't 
# the spider closes. 
INFO: Closing spider (finished) 
INFO: Extension, signals.spider closed fired 
# ... stats get printed 
4 and finally engine gets stopped. 
INFO: Extension, signals.engine stopped fired 


虽然 只 有 11 个 信号 ， 可 能 会 感觉 比较 有 限 ， 但 是 每 个 Scrapy 的 默认 
中 间 件 都 是 只 使 用 它们 实现 的 ， 因 此 它们 肯定 够 用 。 请 注意 ， 除 了 
spider idle. spider error. request scheduled. response received 
和 response_downloaded 以 外 的 所 有 其 他 信号 ， 都 可 以 返回 延迟 ， 而 不 是 
真实 值 。 








8.5 示例 2: 测量 奉 吐 量 和 延 时 的 扩展 








当 我 们 在 第 9 章 中 添加 管道 后 ， 测 量 吞 吐 量 〈 每 秒 的 item 数 ) 和 延 
时 《计划 后 和 下 载 后 的 时 间 ) 的 变化 是 一 件 很 有 意思 的 事情 。 


Scrapy 扩 展 中 已 经 包含 了 一 个 测量 吞吐 量 的 扩展 ， 即 日 志 统 计 扩 展 
(scrapy/extensions/logstats.py) ， 我 们 将 会 以 此 为 起 点 。 要 想 测 量 
延 时 ， 需 要 hook 一 些 信和 号， 包括 
request_scheduled、response_received 和 item_scraped。 我 们 对 每 个 信 
号 记录 时 间 惟 ， 并 通过 累计 多 次 取 平 均值 的 方式 减 去 适当 的 计算 延 时 。 
通过 观察 这 些 信号 提供 的 回调 参数 ， 会 发 现 一 些 讨 厌 的 东 
西 。item_scraped 只 在 Response 中 获得 ，redquest_scheduled 只 在 Request 
中 获得 ， 而 response_received 则 是 两 者 中 都 有 。 泣 运 的 是 ， 我 们 不 需要 
任何 特殊 的 技巧 来 传递 这 些 值 。 每 个 Response 都 有 一 个 Request 成 员 ， 回 
指 其 Request， 更 好 的 是 它 拥 有 我 们 在 第 5 间 中 看 到 的 meta 字 p 典 ， 它 和 原 
始 Request 中 的 一 样 ， 而 不 管 是 否 存在 重 定 同 。 非 常 好 ， 我 们 可 以 在 这 
里 存储 时 间 惟 了 ! 



































实际 上 ， 这 并 不 是 我 的 主意 。 同 样 的 机 制 已 经 在 AutoThrottle 扩 
(scrapy/extensions/throttle.py) 中 使 用 了 。 在 该 扩展 中 ， 使 用 了 
request.meta.get('download_latency'), +4 中 download_latency 是 
在 scrapy/core/downloader/webclient .py 下 载 器 中 进行 计算 的 。 在 编写 中 间 
件 时 ， 最 快 的 改善 方式 就 是 让 自己 熟悉 Scrapy 默 认 的 中 间 件 代码 。 















































下 面 是 扩展 的 代码 。 


class Latencies(object): 
@classmethod 
def from_crawler(cls, crawler): 
return cls(crawler) 


def | init (self, crawler): 

self.crawler - crawler 
self.interval - crawler.settings.getfloat('LATENCIES INTERVAL') 
if not self.interval: 

raise NotConfigured 
cs = crawler.signals 
cs.connect(self. spider opened, signal=signals.spider_opened) 
cs.connect(self. spider closed, signal-signals.spider closed) 
cs.connect(self. request scheduled, signal-signals.request scheduled) 
cs.connect(self. response received, signal-signals.response received) 
cs.connect(self. item scraped, signal-signals.item scraped) 
self.latency, self.proc latency, self.items = 0, 0, 0 


def spider opened(self, spider): 
self.task - task.LoopingCall(self. log, spider) 
self.task.start(self.interval) 


def spider closed(self, spider, reason): 
if self.task.running: 
self.task.stop() 


def request scheduled(self, request, spider): 
request.meta['schedule time'] - time() 
def response received(self, response, request, spider): 
request.meta['received time'] - time() 
def item scraped(self, item, response, spider): 
self.latency += time() - response.meta['schedule time'] 
self.proc latency += time() - response.meta['received time'] 
self.items += 1 
def _log(self, spider): 
irate - float(self.items) / self.interval 
latency - self.latency / self.items if self.items else 0 
proc latency = self.proc latency / self.items if self.items else 0 
spider.logger.info(("Scraped %d items at %.1f items/s, avg latency: " 
"%.2f s and avg time in pipelines: %.2f s") % 
(self.items, irate, latency, proc latency)) 
self.latency, self.proc latency, self.items = 0, 0, 0 





前 两 个 方法 非常 重要 ， 因 为 它们 很 通用 。 它 们 使 用 crawler 对 象 初 
始 化 中 间 件 。 你 会 发 现 这 些 代码 几乎 出 现在 每 个 重要 的 中 间 件 当 
中 。 from_crawler(cls, crawler) 是 获取 crawler 对 象 的 方式 。 然后 ， 可 
以 注意 到 在 _init__() 方 法 中 ， iin] f crawler.settings. 并 且 会 在 其 
未 设置 时 抛 出 Notconfigured 异 常 。 你 会 看 到 很 多 FooBar 扩 展 ， 用 于 检查 
相应 的 FooBAR_ENABLED 设 置 ， 如 果 没 有 设置 或 者 设置 为 False 时 ， 将 会 抛 
出 异常 。 这 是 一 种 非常 常见 的 模式 ， 是 为 了 方便 将 中 间 件 包含 在 对 应 的 
settings.py 设 置 中 (比如 ITEM_PIPELINES) ， 但 是 默认 情况 下 是 禁 
的 ， 除 非 通过 其 对 应 的 设置 显 式 局 用 。 许 多 默认 的 Scrapy 中 间 件 《比如 
AutoThrottle 或 HttpCache) 都 使 用 了 这 种 模式 。 在 本 例 中 ， 我 们 的 扩展 





会 保持 LATENCIES_INTERVAL 的 禁用 状态 ， 除 非 已 经 对 其 进行 了 设置 。 


E int _() 方 法 的 后 面 一 部 分 代码 中 ， 我 们 使 
用 crawler.signals,connect()， 为 所 有 感 兴趣 的 信号 都 注册 了 回调 ， 并 
初始 化 了 一 些 成 员 变 量 。 这 个 类 的 剩余 部 分 实现 了 信号 处 理 器 。 
在 _spider_opened() 中 ， 我 们 初始 化 了 一 个 计时 右 ， 会 每 隔 
LATENCIES_INTERVAL 秒 调用 _1og() 方 法 ; 在 _spider_closed() 中 ， 我 们 停 
止 了 该 计时 器 。 在 _request_scheduled() 和 _response_received() 中 ， 我 
们 在 request .meta 中 存储 了 时 间 惟 ;而 在 _item_scraped() 中 ， 我 们 累计 
两 次 延 时 〈 从 计划 /接收 开始 直到 当前 时 间 ) ， 并 递增 抓 取 到 的 Item 的 
数量 。 在 _1og() 方 法 中 ， 我 们 计算 了 平均 值 ， 格 式 化 并 打印 出 消息 ， 重 
置 宗 加 器 以 开始 男 一 个 采样 周期 。 











任何 在 多 线程 上 下 文中 编写 类 似 代码 的 人 ， 都 会 意识 到 上 述 代 码 中 没 
有 使 用 互 斥 锁 。 本 例 可 能 还 不 是 竺 别 复杂 ， 不 过 编写 单线 程 代码 仍然 要 更 加 
简单 ， 并 且 在 更 加 复杂 的 场景 下 可 以 很 好 地 扩展 。 
























































我 们 可 以 将 该 扩展 的 代码 添加 到 latencies,py 模 块 中 ， 放 到 和 
settings. ee 如 果 想 要 局 用 该 扩展 ， 只 需 在 settings.py 
文件 中 添加 如 下 两 行 


EXTENSIONS = { 'properties.latencies.Latencies': 500, } 
LATENCIES_INTERVAL = 5 


我 们 可 以 像 平 时 那样 运行 


$ pwd 
/root/book/ch08/properties 
$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=1000 -s LOG_LEVEL=INFO 


INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 


INFO: Scraped 0 items at 0.0 items/sec, average latency: 0.00 sec and 
average time in pipelines: 0.00 sec 

INFO: Scraped 115 items at 23.0 items/s, avg latency: 0.84 s and avg time 
in pipelines: 0.12 s 

INFO: Scraped 125 items at 25.0 items/s, avg latency: 0.78 s and avg time 
in pipelines: 0.12 s 





日 志 的 第 一 行 来 自 日 志 统 计 扩 展 ， 而 接 下 来 的 各 行 来 自我 们 的 扩 
展 。 可 以 看 到 吞吐 量 是 每 秒 25 个 item， 平 均 时 延 是 0.78 秒 ， 我 们 在 下 载 
后 几乎 没有 花费 时 间 处 理 。 通 过 利 特 尔 法 则 ， 我 们 得 到 系统 中 item 的 数 
量 为 N =S + T= 43 . 0.45 2 19。 无 论 设置 的 coNCURRENT_REQUESTS 和 
CONCURRENT_REQUESTS_PER_DOMAIN 是 多 少 ， 即 便 没 有 触及 100% 的 CPU， 
也 不 应 该 使 其 超过 30。 我 们 可 以 在 第 10 章 中 了 解 更 多 相 





8.6 ”中间 件 延伸 


本 节 是 为 好 奇 的 读者 提供 的 ， 而 不 再 是 开发 者 。 如 果 只 是 编写 基础 
或 中 级 的 Scrapy 扩 展 的 话 ， 你 并 不 需要 了 解 这 些 内 容 。 


如 果 查 看 scrapy/settings/default_settings.py 文 件 ， 就 会 发 现在 
默认 设置 中 有 很 多 类 名 。Scrapy 大 量 使 用 了 依赖 注入 机 制 ， 可 以 让 我 们 
目 定义 和 扩展 许多 内 部 对 象 。 例 如 ， 一 些 人 可 能 希望 支持 除了 文件 、 
HTTP、HTTPS、S3 以 及 FTP 这 些 在 DOWNLOAD_HANDLERS_BASE 设 
置 中 定义 好 的 协议 以 外 的 更 多 协议 。 要 想 实 现 这 一 点 ， 只 需要 创建 一 个 
下 载 处 理 器 类 ， 并 在 DOWNLOAD_HANDLERS 设 置 中 添加 映射 即 可 。 
最 困难 的 部 分 是 找 出 你 的 自 定义 类 必须 包含 哪些 接口 〈( 即 需要 实现 哪些 
方法 ) ， 因 为 大 部 分 接口 都 不 是 显 式 的 。 你 必须 阅读 源 人 代码， 查看 这 些 
类 是 如 何 使 用 的 。 最 好 的 办 法 是 从 已 有 的 实现 开始 ， 将 其 修改 为 令 目 己 
满意 的 版 本 。 不 过 ， 这 些 接口 在 近期 的 Scrapy 版 本 中 已 经 逐渐 趋 于 稳 
定 ， 因 此 我 将 尝试 在 图 8.4 中 将 它们 和 Scrapy 核 心 类 一 起 记录 成 文档 (这 
里 省 略 了 前 面 已 经 提 及 的 中 间 件 架构 ) 。 





scrapy crawl and other ISpiderLoader 
commands — — 
«uses» -spider_loader : SpiderLoader 


| +crawl(in crawler or spidercls) 
i *stop() 


CrawlerProcess LN 
— m 









*from in 
+load(in spider name) 

+list() 

+find_by_request(in request) 


-mqs : MemoryQueue 
-dqs : DiskQueue 
-dupefilter : BaseDupeFilter 


-stats : StatsCollector 
-spider : Spider 


-signals : SignalManager 





1 1 ü f: 
-settings : Settings downloader : Downloader 


-extensions : ExtensionManager 
-logformatter : LogFormatter 


-scraper : Scraper 
-slot.scheduler : Scheduler 





+request_seen(in request) 


«| 
+log(in request, in spider) rte 
| Statscolector | —__ — er — 
| : 
"d — — -middleware : DownloaderMiddlewareManager -spidermw : SpiderMiddlewareManager 
m — — -handlers : DownloadHandlers -itemproc : ItemPipelineManager 





MemoryStatsCollector DownloadHandlers 
| +download_requestlin request, in spider) 


«uses» 


1 
U 
DownloadHandler 


> «download request(in request, in spider) 
+close() 


..also S3DownloadHandler, 
HttpDownloadHandler which inherits from 
HTTP10DownloadHandler etc. 





An interesting extension 
is FeedExporter: 


«uses» 
FeedExporter M BaseltemExporter 
下 
| ^ «wes» | «start exporting(in request, in spider) 
finish, exporting() scrapy check command 
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+export_item(in item) «uses» 
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ContractsManager 


















JsonLinesitemExporter 














JsonitemExporter 
..also CsvitemExporter, 
PickleltemExporter, 
MarshalltemExporter, 


PprintitemExporter, 
PythonltemExporter etc. 













StdoutFeedStorage FileFeedStorage 
BlockingFeedStorage 
LN LN 


S3FeedStorage FTPFeedStorage 


«pre process(in response) 
+post_process(in output) 
"adjust request, args(in args) 













LN 
ScrapesContract 
«post process(in output) adjust request args(in args) 


*post process(in output) 


图 8.4 ”Scrapy 接 口 和 核心 对 象 


核心 类 位 于 图 8.4 的 左上 角 。 当 人 们 使 用 scrapy crawl, ScrapyHt 
会 使 用 crawlerProcess 对 象 创建 我 们 熟悉 的 crawler 对 象 。crawler 对 象 
是 最 重要 的 Scrapy 类 。 它 包括 settings、signals 以 及 spider。 在 名 
为 extensions.crawler.engine 的 ExtensionManager 对 象 中 ， 还 包含 所 有 
的 扩展 ， 这 将 带领 我 们 来 到 另 一 个 非常 重要 的 类 一 —ExecutionEngine. 
在 该 类 中 ， 包 含 了 scheduler、pDownloader 以 及 Scraper。URL 通 过 
Scheduler 进 行 计 划 ， 通 过 Downloader 下 载 ， 通 过 scraper 进 行 后 置 处 
H. Zei], Downloader 44 DownloaderMiddleware fll 
DownloadHandler, IfjScraper 4 spiderMiddlewarejfllItemPipeline. 4 
个 MiddlewareManager 也 都 拥有 其 自己 的 小 架构 。 在 Scrapy 中 ，feed 输 出 
是 以 扩展 的 形式 实现 的 ， 即 FeedExporter。 它 包含 两 个 独立 的 结构 ， 一 
个 用 于 定义 输出 格式 ， 而 男 一 个 用 于 存储 类 型 。 这 束 人 允许 我 们 可 以 通过 
调整 输出 的 URL 将 53 的 XML 文 件 导 出 为 命令 行 上 的 Pickle 编 码 输出 。 这 
两 个 结构 还 可 以 使 用 FEED_STORAGES 和 FEED_EXPORTERS 设 置 进行 独立 扩 
展 。 最 后 ，scrapy check 命 令 使 用 的 contract 也 有 其 自身 的 结构 ， 可 以 使 
用 sPIDER_CONTRACTS 设 置 进行 扩展 。 








8.7 ”本章 小 结 








茶 喜 你 ， 你 已 经 对 scrapy 和 Twisted 编 程 有 了 深入 了 解 。 你 可 全 EE 还 
会 多 次 阅读 本 音 ， 并 将 ee i 到 目前 为 止 ， 我 们 需要 的 最 
流行 的 扩展 是 Item 处 理 管道 。 下 一 章 会 用 它 解决 一 些 和 常见 的 问题 











上 一 章 讨论 了 使 用 Scrapy 中 间 件 的 编程 技术 。 本 章 将 通过 展示 各 种 
常见 用 例 〈( 包 括 消费 REST API、 数 据 库 接口 、 处 理 CPU 密 集 型 任务 以 
及 与 遗留 服务 的 接口 ) ， 重 点 关注 编写 正确 而 高 效 的 管道 。 


在 本 章 中 ， 我 们 将 会 使 用 几 个 新 的 服务 右 ， 你 可 以 在 图 9.1 的 右 侧 
看 到 这 些 服务 器 。 





本 章 使 用 的 系统 


图 9.1 


Vagrant 应 该 已 经 为 我 们 创建 好 了 这 些 服 务 器 ， 我 们 可 以 从 dev 服 务 
器 中 使 用 其 主机 名 进行 ping 操 作 ， 例 如 ping es 或 ping mysql。 话 不 多 
说 ， 让 我 们 从 REST API 开 始 探 索 吧 。 


9.1 使 用 REST API 


REST 是 一 套用 于 创建 现代 Web 服 务 的 技术 ， 其 主要 优点 是 比 SOAP 
或 专 有 Web 服 务 机 制 更 加 简单 ， 更 加 轻 量 级 。 软 件 开 发 人 员 观 察 发 现 ， 
Web 服 务 经 常 提供 的 CRUD (创建 、 读 取 、 更 新 、 删 
除 [Create、Read、Update、Delete]) 功能 与 HITP 基 本 操作 (GET. 
POST. PUT. DELETE) 具有 相似 性 。 另 外 ， 他 们 还 发 现 典型 的 Web 服 
务 调用 其 所 需 的 大 部 分 信息 时 ， 都 可 以 将 其 压缩 到 资源 URL 上 。 例 
lll, http://api.mysite.com/ customer/john 是 一 个 资源 URL， 它 可 以 
让 我 们 确定 目标 服务 器 (api.mysite.com) ， 实 际 上 我 正在 尝试 在 服务 
器 上 执行 和 customers〈 表 ) 相关 的 操作 ， 更 具体 的 说 就 是 执行 和 
john (ÍF ERE) 相关 的 操作 。 当 它 与 其 他 Web 概 念 〈 如 安全 认证 、 
无 状态 、 绥 存 、 使 用 XML 或 JSON 作 为 载荷 等 ) 结合 时 ， 能 够 通过 一 种 
强大 而 又 简单 、 熟 悉 且 可 以 轻松 路 平台 的 方式 ， 提 供 和 使 用 Web 服 务 。 
难怪 REST 可 以 掀起 软件 行业 的 一 场 风 骏 。 


9.1.1 使 用 treq 


treq 是 一 个 Python 包 ， 相 当 于 基于 Twisted 应 用 编写 的 Python 
requests 包 。 它 可 以 让 我 们 轻松 执行 GET、POST 以 及 其 他 HTTP 请 求 。 
想 要 安装 该 包 ， 可 以 使 用 pip install treq， 不 过 它 已 经 在 我 们 的 开发 
机 中 预先 安装 好 了 。 


我 们 更 倾 问 于 选择 treq 而 不 是 Scrapy 的 
Request/crawler .engine.download() 的 原因 是 ， 虽 然 它们 都 很 简单 ， 但 
是 在 性 能 上 treq 更 有 优势 ， 我 们 将 会 在 第 10 章 中 看 到 更 详细 的 介绍 。 


9.1.2 用 于 写 入 Elasticsearch 的 管道 


首先 ， 我 们 要 编写 一 个 将 Item 存 储 到 ES (Elasticsearch) 服务 妖 的 
候 虫 。 你 可 能 会 觉得 从 ES 开始 ， 甚 至 先 于 MySQL， 作 为 持久 化 机 制 进 
行 讲 解 有 些 不 太 寻 常 ， 不 过 其 实 它 是 我 们 可 以 做 的 最 简单 的 事情 。ES 可 
以 是 无 模式 的 ， 也 就 是 说 无 需 任何 配置 束 能 够 使 用 它 。 对 于 我 们 这 个 
(非常 简单 的 ) 用 例 来 说 ，treq 也 已 经 足够 使 用 。 如 果 想 要 使 用 更 高 级 








的 ES 功能 ， 则 需要 考虑 使 用 txes2 或 其 他 Python/Twisted ES. 


在 我 们 的 开发 机 中 ， 已 经 包含 正在 运行 的 ES 服务 器 了 。 下 面 登录 到 
开发 机 中 ， 验 证 其 是 否 正在 正常 运行 。 


$ curl http://es:9200 
{ 








"name" : "Living Brain", 
"cluster_name" : "elasticsearch", 
"version" : ( ... }, 

"tagline" : "You Know, for Search" 


在 牡 主 机 浏览 器 中 ， 访 问 http://Localhost:9200， 也 可 以 看 到 同样 
的 结果 。 当 访问 http://localhost:92090/properties/property/_search 
时 ， 可 以 看 到 返回 的 响应 表示 ES 进行 了 全 局 性 的 答 试 ， 但 是 没有 找到 任 
何 与 房产 信息 相 ; 戎 嘉 你， 刚刚 已 经 使 用 了 ES 的 REST API. 
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在 本 章 ， 我 们 将 在 properties 集 合 中 插入 房产 信息 。 你 可 能 需要 重 置 
properties 集 合 ， 此 时 可 以 使 用 cur1 执 行 DELETE 请 求 : 


$ curl -XDELETE http://es:9200/properties 























中 管道 实现 的 完整 代码 包含 很 多 额外 的 细节 ， 如 更 多 的 错误 处 
过 我 将 通过 凸显 关 键 点 的 方式 ， 保 持 这 里 的 代码 简洁 。 
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本 章 在 che9 目 录 当 中 ， 其 中 本 示例 的 代码 


为 ch69/properties/properties/pipelines/es.py。 


从 本 质 上 说 ， 疏 虫 代码 只 包含 如 下 4 行 。 


@defer.inlineCallbacks 
def process_item(self, item, spider): 

data = json.dumps(dict(item), ensure ascii-False).encode("utf- 
8") 

yield treqg.post(self.es url, data) 


其 中 ， 前 两 行 用 于 定义 标准 的 process_item() 方 法 ， 可 以 在 其 中 
yield 延 迟 操作 〈 参 考 第 8 章 ) 。 


第 3 行 用 于 准备 要 插入 的 data。 首 先 ， 我 们 将 Item 转化 为 字典 。 然 
后 使 用 json.dumps() 将 其 编码 为 JSON 格 式 。ensure_ascii=False 的 目的 
是 通过 不 转 义 非 ASCII 字 符 ， 使 得 输出 更 加 紧 竣 。 人 然后， 将 这 些 JSON 字 
符 串 编码 为 UTF-8， 即 JSON 标 准 中 的 默认 编码 。 


最 后 一 行使 用 treq 的 post() 方 法 执行 POST 请 求 ， 将 文档 插入 到 
ElasticSearch 中 。es_ur1 存 储 在 settings.py 文 件 当 中 (ES PIPELINE URL 
设置 ) ， Qohttp:// es:9200/properties/property, 可 以 提供 一 些 基 本 
言 轧 ， 如 ES 服务 器 的 IP 和 端口 Ces:92000 、 人 集合 名 称 (properties) 

以 及 想 要 写 入 的 对 象 类 型 (property) 。 


要 想 启 用 该 管道 ， 需 要 将 其 添加 到 settings .py 文件 的 
ITEM_PIPELINES 设 置 当中 ， 并 且 使 用 Es_PIPELINE_URL 设 置 进行 初始 化 。 


ITEM_PIPELINES = { 
'properties.pipelines.tidyup.TidyUp': 100, 





'properties.pipelines.es.EsWriter': 800, 


} 
ES PIPELINE URL = 'http://es:9200/properties/property' 


完成 上 述 工作 后 ， 我 们 可 以 进入 到 适当 的 目录 当中 。 


$ pwd 
/root/book/ch09/properties 
$ 1s 

properties scrapy.cfg 


v —— — 2 
— FIET ME ae 
$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=90 


INFO: Enabled item pipelines: EsWriter... 
INFO: Closing spider (closespider itemcount)... 
'item scraped count': 106, 


如 果 现 在 再 次 访问 http://LocaLlhost:9200/properties/ property/_ 
search， 可 以 在 啊 应 的 hits/total 字 段 中 看 到 已 经 插入 的 条 目 数 量 ， 以 
及 前 10 条 结果 。 我 们 还 可 以 通过 添加 ?size=100 参 数 取 得 更 多 结果 。 在 
搜索 URL 中 添加 q= 参 数 时 ， 可 以 在 全 部 或 特定 字段 中 搜索 指定 关键 词 。 
最 相关 的 结果 将 会 出 现在 最 前 面 。 例 如 ，http://localhost: 
9200/properties/property/ search?q-title: london， 将 会 返回 标题 中 
包含 "London" 的 房产 信息 。 对 于 更 加 复杂 的 查询 ， 可 以 查阅 ES 的 官方 
文档 ， 网 址 
XN: https://www.elastic.co/guide/en/elasticsearch/reference/curre 
query-dsl-query-string-query.html. 


ES 不 需要 配置 的 原因 是 它 可 以 根据 我 们 提供 的 第 一 个 属性 自动 检测 
模式 〈 字 段 类 型 ) 。 通过 访问 http://Localhost:9200/properties/， 可 


以 看 到 其 上 自动 检测 的 映射 关系 。 
让 我 们 快速 查看 一 下 性 能 ， 使 用 上 一 章 结尾 处 给 出 的 方式 重新 运 


行 scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=1000。 平 均 延 时 从 
0.78 秒 增长 到 0.81 秒 ， 这 是 因为 管道 的 平均 时 间 从 0.12 秒 增长 到 了 0.15 
秒 。 否 吐 量 仍然 保持 在 每 秒 大 约 25 个 Item。 























使 用 管道 将 Item 插 入 到 数据 库 当 中 是 不 是 一 个 好 主意 昵 ? 答案 是 否定 
的 。 通 常情 况 下 ， 数 据 库 提 供 的 批量 插入 条 目的 方式 可 以 有 几 个 数量 级 的 效 
率 提升 ， 因 此 我 们 应 当 使 用 这 种 方式 。 也 就 是 说 ， 应 当 将 Item 打 包 批 量 插 
入 ， 或 在 爬虫 结束 时 以 后 置 处 理 的 步骤 执行 插入 。 我 们 将 在 最 后 一 章 中 看 到 
这 些 方法 。 不 过 ， 许 多 人 仍然 使 用 Item 管 道 插入 数据 库 ， 此 时 使 用 Twisted 
API 而 不 是 通用 / 阻 守 的 方法 实现 该 方案 才 是 正确 的 方式 。 






















































































9.1.3 fii iGoogle Geocoding API 实 现 地 理 编码 的 管道 





每 个 房产 信息 都 有 地 区 名 称 ， 因 此 我 们 想 对 其 进行 地 理 编码 ， 也 就 
是 说 找到 它们 对 应 的 坐标 (经 度 、 纬 度 ) 。 我 们 可 以 使 用 这 些 坐 标 将 房 
产 信息 放 到 地 图 上 ， 或 是 根据 它们 到 某 个 位 置 的 距离 对 搜索 结果 进行 排 
序 。 开 发 这 种 功能 需要 复杂 的 数据 库 、 文 本 匹配 以 及 空间 计算 。 而 使 用 
Google 的 Geocoding API， 可 以 避免 上 面 提 到 的 几 个 问题 。 可 以 通过 浏览 
器 或 curl 打 开 下 述 URL 以 获取 数据 。 


$ curl "https://maps.googleapis.com/maps/api/geocode/json?sensor-false&ad 
dress-london" 


"results" : [ 


"formatted address" : "London, UK", 
"geometry" : ( 


"location" : { 
"lat" : 51.5073509, 
"lng" : -0.1277583 


, 
"location type" : "APPROXIMATE", 


我 们 可 以 看 到 一 个 JSON 对 象 ， 当 搜索 "location" 时 ， 可 以 很 快 发 现 
Google 提 供 的 是 伦敦 中 心 坐标 。 如 果 继 续 搜索 ， 会 发 现 同一 文档 中 还 包 





含 其 他 位 置 。 其 中 ， 第 一 个 坐标 位 置 是 最 相关 的 。 因 此 ， 如 果 存 
ee odat vrlioga tioni iiS 它 束 是 我 们 所 需要 的 信息 。 


Google 的 Geocoding ”API 可 以 使 用 之 前 用 过 的 技术 (treq) 进行 访 
问 。 只 需 几 行 ， 就 可 以 找 出 一 个 地 址 的 坐标 位 置 (查看 pipeline 目 录 的 
geo.py 文 件 ) ， 其 代码 如 下 。 


Qdefer.inlineCallbacks 
def geocode(self, address): 
endpoint - 'http://web:9312/maps/api/geocode/json' 








parms = [('address', address), ('sensor', 'false')] 
response - yield treq.get(endpoint, params-parms) 
content - yield response.json() 


geo = content['results'][0]["geometry"]["location"] 
defer.returnValue({"lat": geo["lat"], "lon": geo["lng"])) 


该 函数 使 用 了 一 个 和 前 面 用 过 的 URL 相 似 的 URL， 不 过 在 这 里 将 其 
指向 到 一 个 假 的 实现 ， 以 使 其 执行 速度 更 快 ， 侵 入 性 更 小 ， 可 离线 使 用 
并 且 更 加 可 预测 。 可 以 使 用 endpoint = 
'https://maps .googleapis.com/maps/api/geocode/json' XV |H] Google 
的 服务 器 ， 不 过 需要 记 住 的 是 Google 对 请 求 有 严格 的 限制 。address 和 
sensor 的 值 都 通过 treq 的 get() 方 法 的 params 参 数 进行 了 目 动 URE 编 
码 。treq.get() 方 法 返回 了 一 个 延迟 操作 ， 我 们 对 其 执行 yield 操 作 ， 以 
便 在 啊 应 可 用 时 恢复 它 。 对 response.json() 的 第 二 个 yield 操 作 ， 用 于 
d ru rr e 此 时 ， 我 们 可 以 得 到 第 一 个 

结果 的 位 置信 息 ， 将 其 格式 化 为 字典 后 ， 使 用 defer.returnvalue() 返 
回 ， 该 方法 是 从 使 用 inlinecallbacks 的 方法 返回 值 的 最 适当 的 方式 。 如 
果 任 何 地 方 存在 问题 ， 该 方法 会 抛 出 异常 ， 并 通过 Scrapy 报 告 给 我 们 。 


通过 使 用 geocode()，process_item() 可 以 变 为 一 行 代 码 ， 如 下 所 





item["location"] = yield self.geocode(item["address"][0]) 





我 们 可 以 在 ITEM_PIPELINES 设 置 中 添加 并 启用 该 管道 ， 其 优先 级 数 
值 应 当 小 于 ES 的 优先 级 数值 ， 以 便 ES 获 取 坐 标 位 置 的 值 。 


ITEM_PIPELINES = { 





'properties.pipelines.geo.GeoPipeline': 400, 


我 们 局 用 调试 数据 ， 运 行 一 个 快速 的 爬虫 。 

$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=90 -L DEBUG 
{'address': [u'Greenwich, London'], 

“‘image_urls': [u'http://web:9312/images/i06.jpg'], 


'location': {'lat': 51.482577, 'lon': -0.007659}, 
'price': [1030.0], 


_ 现在， 可 以 看 到 Item 中 包含 了 location 字 段 。 太 好 了 ! 不 过 当 使 用 
真实 的 Google ”API 的 URL 临 时 运行 它 时 ， 很 快 就 会 得 到 类 似 下 面 的 异 
AM 
IH o 

File "pipelines/geo.py" in geocode (content['status'], address)) 


Exception: Unexpected status-"OVER QUERY LIMIT" for 
address="*London" 


这 是 我 们 在 完整 代码 中 放 入 的 一 个 检查 ， 用 于 确保 Geocoding API 
的 响应 中 status 字 上 段 的 值 是 ok。 如 果 该 值 非 真 ， 则 说 明 我 们 得 到 的 返回 
数据 不 是 期 望 的 格式 ， 无 法 被 安全 使 用 。 在 本 例 中 ， 我 们 得 到 了 
OVER_QUERY_LIMIT 状 态 ， 可 以 清楚 地 说 明 在 什么 地 方 发 生 了 错误 。 这 可 
能 是 我 们 在 许多 案例 中 都 会 面临 的 一 个 重要 问题 。 由 于 Scrapy 的 引擎 具 
备 较 高 的 性 能 ， 绥 在 和 资源 请 求 的 限 流 成 为 了 必须 考虑 的 问题 。 


可 以 访问 Geocoder API 的 文档 来 了 解 其 限制 : “免费 用 户 API: 每 24 
小 时 允许 2500 个 请 求 ， 每 秒 允许 5 个 请 求 ”。 即 使 使 用 了 Google 
Geocoding ”API 的 付费 版 本 ， 仍 然 会 有 每 秒 10 个 请 求 的 限 流 ， 这 束 意 味 
着 该 讨论 仍然 是 有 意义 的 。 




















面 的 实现 看 起 来 可 能 会 比较 复杂 ， 但 是 它们 必须 在 上 下 文中 进行 判 





下 























断 。 而 在 典型 的 多 线程 环境 中 创建 此 类 组 件 需 要 线程 池 和 同步 ， 这 样 就 会 产 
生 更 加 复杂 的 代码 。 





下 面 是 使 用 Twisted 技 术 实 现 的 一 个 简单 而 又 足够 好 用 的 限 流 引 


class Throttler(object): 
def _ init (self, rate): 
self.queue = [] 
self.looping call = task.LoopingCall(self. allow one) 
self.looping call.start(1. / float(rate)) 


def stop(self): 
self.looping call.stop() 


def throttle(self): 
d - defer.Deferred() 
self.queue.append(d) 
return d 


def allow one(self): 
if self.queue: 
self.queue.pop(0).callback(None) 


该 代码 中 ， 延 迟 操作 排队 进入 列表 中 ， 每 次 调用 _allow_one() 时 依 
次 触 皮 它们 ;，_allow_one() 检 查 队 列 是 否 为 空 ， 如 采 不 是 ， 则 调用 最 旧 
的 延迟 操作 的 caLllback()《〈 先 入 先 出 ，EFIFO) 。 我 们 使 用 Twisted 的 
task.LoopingCall() API 周 期 性 调用 _allow_one()。 使 用 Throttler 非 党 
简单 。 我 们 可 以 在 管道 的 _init 中 对 其 进行 初始 化 ， 并 在 爬虫 结束 时 
对 其 进行 清理 。 

class GeoPipeline(object): 


def | init (self, stats): 
self.throttler = Throttler(5) # 5 Requests per second 





def close spider(self, spider): 
self.throttler.stop() 


在 使 用 想 要 限 流 的 资源 之 前 《在 本 例 中 为 在 process_item() 中 调 
用 geocode() ) ， 需 要 对 限 流 器 的 throttle() 方 法 执行 yield 操 作 。 


yield self.throttler.throttle() 
item["location"] = yield self.geocode(item["address"][0]) 


在 第 一 个 yield 时 ， 代 码 将 会 暂停 ， 等 竺 足够 的 时 间 过 去 之 后 再 恢 


复 。 比 如 ， 某 个 时 刻 共有 11 个 延迟 操作 在 队列 中 ， 我 们 的 速率 限制 是 每 
秒 5 个 请 求 ， 我 们 的 代码 将 会 在 队列 清空 时 恢复 ， 大 约 为 11/5=2.2 秒 。 


使 用 Throttler 后 ， 我 们 不 再 会 用 生 错 误 ， 但 是 爬虫 速度 会 变 得 非 
常 慢 。 通 过 观察 发 现 ， 示 例 的 房产 信息 中 只 有 有 限 的 几 个 不 同位 置 。 这 
是 使 用 缓存 的 一 个 非常 好 的 机 会 。 我 们 可 以 使 用 一 个 简单 的 Python 字典 
来 实现 缓存 ， 不 过 这 种 情况 下 将 会 产生 苋 态 条 件 ， 导 致 不 正确 的 API 调 
用 。 下 面 是 一 个 没有 该 问题 的 缓存 ， 此 外 还 演示 了 一 些 Python 和 Twisted 
的 有 趣 特 性 。 


class DeferredCache(object): 
def | init (self, key not found callback): 
self.records = {} 
self.deferreds waiting = {} 
self.key not found callback - key not found callback 




















Qdefer.inlineCallbacks 
def find(self, key): 
rv = defer.Deferred() 


if key in self.deferreds waiting: 
self.deferreds waiting[key].append(rv) 
else: 
self.deferreds waiting[key] = [rv] 


if not key in self.records: 
try: 
value - yield self.key not found callback(key) 
self.records[key] - lambda d: d.callback(value) 
except Exception as e: 
self.records[key] - lambda d: d.errback(e) 


action - self.records[key] 
for d in self.deferreds waiting.pop(key): 
reactor.callFromThread(action, d) 


value - yield rv 
defer.returnValue(value) 


该 缓存 看 起 来 和 人 们 通常 期 望 的 有 些 不 同 。 它 包含 两 个 组 成 部 分 。 


e self.deferreds_waiting: 这 是 一 个 延迟 操作 的 队列 ， 等 待 HAE TE 
的 值 。 
e self.records: 这 是 已 经 出 现 的 键 -操作 对 的 字典 。 


如 果 查 看 find( ) 实 现 的 中 间 部 分 ， 就 会 发 现 如 果 没 有 
在 self.records 中 找到 一 个 键 ， 则 会 调用 一 个 预定 义 的 callback 函 数 ， 


取得 缺失 值 (yield self.key_not_found_callback(key)) 。 该 回调 函 
数 可 能 会 抛 出 一 个 异常 。 我 们 要 如 何在 Python 中 以 紧凑 的 方式 存储 这 些 
值 或 异常 呢 ? 由 于 Python 是 一 种 函数 式 语 言 ， 我 们 可 以 根据 是 否 出 现 异 
常 ， 在 self.records 中 存储 调用 延迟 操作 的 callback 或 errback 的 小 函数 
(lambda) 。 在 定义 时 ， 该 值 或 异常 被 附加 到 lambda 函 数 中 。 函 数 中 对 
e 
à —— 



































缓存 异常 有 些 不 太 常 见 ， 不 过 这 意味 着 如 果 在 第 一 次 查找 某 个 键 
时，key_not_found_callback(key) 扫 出 了 异常 ， 那 么 接 下 来 对 相同 键 再 次 查 
询 时 仍然 会 抛 出 同样 的 异常 ， 不 需要 再 执行 额外 的 调用 。 




















find() 实 现 的 剩余 部 分 提供 了 避免 范 态 条 件 的 机 制 。 如 果 要 查询 的 
键 已 经 在 进程 当中 ， 将 会 在 self.deferreds_waiting 字 上 典 中 有 记录 。 在 
这 种 情况 下 ， 我 们 不 再 额外 调用 key_not_found_callback()， 只 是 添加 
到 延迟 操作 列表 中 ， 等 待 该 键 。 当 key_not_found_callback() 返 回 ， 并 
且 访 键 的 值 变 为 可 用 时 ， 触 发 每 个 等 待 该 键 的 延迟 操作 。 我 们 可 以 直接 
执行 action(d)， 而 不 是 使 用 reactor .callFromThread()， 不 过 这 样 就 必 
须 处 理 所 有 抛 出 的 异常 ， 并 且 会 创建 一 个 不 必要 的 长 延迟 链 。 


使 用 缓存 非常 简单 。 只 需 在 _init_() 中 对 其 初始 化 ， 并 在 执 
Eo ede 在 process_item() 中 ， 按 照 如 下 代码 使 
HÆF. 


def | init (self, stats): 
self.cache - DeferredCache(self.cache key not found callback) 





Qdefer.inlineCallbacks 

def cache key not found callback(self, address): 
yield self.throttler.enqueue() 
value - yield self.geocode(address) 
defer.returnValue(value) 





Qdefer.inlineCallbacks 

def process item(self, item, spider): 
item["location"] = yield self.cache.find(item["address"][0]) 
defer.returnValue(item) 


本 例 的 完整 代码 包含 了 更 多 的 错误 处 理 代码 ， 能 够 对 限 流 导致 的 错 
Lo ee Ee A ea LAE SEPM RAS AY 
尺码 。 


4! 


ius. | 





本 例 的 完整 代码 文件 地 址 


为 : ch09/properties/properties/pipelines/geo2.py. 





要 想 启 用 该 管道 ， 需 要 禁用 (注释 掉 ) 之 前 的 实现 ， 并 且 
在 settings.py 文 件 的 ITEM_PIPELINES 中 添加 如 下 代码 。 


ITEM_PIPELINES = { 
'properties.pipelines.tidyup.TidyUp': 100, 
'properties.pipelines.es.EsWriter': 800, 
# DISABLE 'properties.pipelines.geo.GeoPipeline': 400, 
'properties.pipelines.geo2.GeoPipeline': 400, 








Kya, HAH on RARASIS iT ZUG HR. 


$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=1000 


Scraped... 15.8 items/s, avg latency: 1.74 s and avg time in pipelines: 
0.94 s 
Scraped... 32.2 items/s, avg latency: 1.76 s and avg time in pipelines: 
0.97 s 
Scraped... 25.6 items/s, avg latency: 0.76 s and avg time in pipelines: 


0.14 s 


: Dumping Scrapy stats:... 
'geo pipeline/misses': 35, 
'item scraped count': 1019, 


WAS, MAREN a TIARAS ai ie, (Ae Rt 
回 到 了 之 前 的 值 。 统 计 显 示 总 共有 35 次 未 命中 ， 这 正 是 我 们 所 用 的 示例 
数据 集 内 不 同位 置 的 数量 。 显 然 ， 在 本 例 中 总 共有 1019 - 35 = 984 次 命 
中 缓存 。 如 果 使 用 真实 的 Google ”API， 并 将 每 秒 对 API 的 请 求 数 量 稍微 
增加 ， 比 如 通过 将 Throttler(5) 改 为 Throttler(190)， 把 每 秒 请 求 数 从 5 
增加 到 10， 束 会 在 geo_ pipeline/retries 统 计 中 得 到 重 试 的 记录 。 如 果 
发 生 任何 错误 ， 比 如 使 用 API 无 法 找到 一 个 位 置 ， 将 会 抛 出 异常 ， 并 量 
会 在 geo_pipeline/errors 统 计 中 被 捕获 到 。 如 果 菏 个 位 置 的 坐标 已 经 被 
设置 (后 面 的 小 节 中 看 到 ) ， 则 会 在 geo_pipeline/already_set 统 计 中 











显示 。 最 后 ， 当 访问 http://localhost:9200/ properties/ 
property/_search， 查 看 房产 信息 的 ES 时 ， 可 以 看 到 包含 坐标 位 置 值 的 
和 条目， 比如 {..."lLocation' ("lat": 51.5269736, "lon": 


-9.9667204}...}， 这 和 我 们 所 期 望 的 一 样 〈 在 运行 之 前 清理 集合 ， 确 保 
看 到 的 不 是 旧 值 ) 。 


9.1.4 在 Elasticsearch 中 局 用 地 理 编码 索引 


既然 已 经 拥有 了 坐标 位 置 ， 现 在 融 可 以 做 一 些 事情 了 ， 比 如 根据 距 
离 对 结果 进行 排序 。 下 面 是 一 个 HTTP POST 请 求 〈 使 用 cur1 执 行 ) ， 返 
回 标题 中 包含 "Angel" 的 房产 信息 ， 并 按照 它们 与 点 {51.54， -9.19} 的 距 
离 进 行 排序 。 


$ curs http: BST 9260/ proper vies/ property — search -d '( 





"query" : {"term" (' title; : "angel" 
"sort" [c .geo distance" : { 
"location" : {"lat": 51.54, "lon": -0.19}, 
"order": "asc", 
"unit " g "km", 
"distance_type": "plane" 
31 


唯一 的 问题 是 当 答 试 运 行 它 时 ， 会 发 现 运 行 失 败 ， 并 得 到 了 一 个 错 
误 信 息 : "failed to find mapper for p uM for geo distance 
based ”sort"。 这 说 明 位 置 字 段 并 不 是 执行 空间 操作 的 适当 格式 。 要 想 
设置 为 合适 的 类 型 ， 则 需要 手动 重 写 其 默认 类 型 。 首 先 ， 将 其 自动 检测 
的 映射 关系 保存 到 文件 中 。 

















$ curl 'http://es:9200/properties/_mapping/property' > property.txt 


然后 编辑 property.txt 的 如 下 代码 。 


"location":{"properties":{"lat":{"type":"double"}, "lon":{"type":"d 
ouble"}}} 


将 该 行 的 代码 修改 为 如 下 代码 。 


"location": {"type": "geo_point"} 


男 外 ， 我 们 还 删除 了 文件 尾部 的 {"properties":{"mappings": and 
two }}。 对 该 文件 的 修改 到 此 为 止 。 现 在 可 以 按 如 下 代码 删除 旧 类 型 ， 
使 用 指定 的 模式 创建 新 类 型 。 

$ curl -XDELETE 'http://es:9200/properties' 

$ curl -XPUT 'http://es:9200/properties' 


$ curl -XPUT 'http://es:9200/properties/ mapping/property' --data 
@property.txt 








ME DA FRI TAME, Jf ALY A my 11 Kn AT cur lap 
令 ， 此 时 将 会 得 到 按照 距离 排序 的 结果 。 我 们 的 搜索 返回 了 房产 信息 的 
ISON, ee 下 sort 字 段 ， 该 字段 的 值 是 到 搜索 点 的 距离 ， 单 
立 为 干 ; 





9.2 ”与 标准 Python 客户 站 建立 数据 库 接 口 


有 很 多 重要 的 数据 库 遵 从 Python 数据 库 API 规 范 2.0 版 本 ， 包 括 
MySQL. PostgreSQL. Oracle. Microsoft SQL Server 和 SQLite。 它 们 的 
驱动 一 般 都 比较 复杂 且 久 经 考验 ， 如 果 为 Twisted 重 新 实现 的 话 则 是 已 
大 的 浪费 。 人 们 可 以 在 Twisted 应 用 中 使 用 这 些 数 据 库 客户 端 ， 比 如 在 
Scrapy 使 用 twisted.enterprise.adbapi 库 。 我 们 将 使 用 MySQL 作 为 示例 
i 不 过 对 于 任何 其 他 莱 容 的 数据 库 来 襄 ， 也 可 以 应 用 相同 的 
原则 。 


9.2.1 用 于 写 入 MySQL 的 管道 

MySQL 是 一 个 非常 强大 且 流 行 的 数据 库 。 我 们 将 编写 一 个 管道 ， 
将 item 写 入 到 其 中 。 我 们 已 经 在 虚拟 环境 中 运行 了 一 个 MySQL 实 例 。 现 
在 只 需 使 用 MySQL 命 令 行 工具 执行 一 些 基本 管理 即 可 ， 同 样 该 工具 也 
己 经 在 开发 机 中 预 安装 好 了 ， 下 面 执行 如 下 操作 打开 MySQL 控 制 台 。 


$ mysql -h mysql -uroot -ppass 





这 将 会 得 到 MySQL 的 提示 符 ， 即 mysq>， 现 在 可 以 创建 一 个 简单 的 
数据 库 表 ， 其 中 包含 一 些 字 段 ， 如 下 所 示 。 


mysql> create database properties; 
mysql> use properties 
mysql> CREATE TABLE properties ( 
url varchar(100) NOT NULL, 
title varchar(30), 
price DOUBLE, 
description varchar (30), 
PRIMARY KEY (url) 


, 
mysql» SELECT * FROM properties LIMIT 10; 
Empty set (0.00 sec) 


非常 好 ， 现 在 拥有 了 一 个 MySQL 数 据 库 ， 以 及 一 张 名 为 properties 
的 表 ， 其 中 包含 了 一 些 字段 ， 此 时 可 以 准备 创建 管道 了 。 请 保持 
MySQL 的 控制 台 为 开启 状态 ， 因 为 之 后 还 会 回来 检查 是 否 正确 插入 了 








值 。 如 果 想 退出 控制 台 ， 只 需要 输入 exit 即 可 。 








在 本 市 ， 我 们 将 会 辐 MySQL 数 据 库 中 插入 房产 信息 。 如 果 你 想 擦 除 它 
们 ， 可 以 使 用 如 下 命令 : 


mysql> DELETE FROM properties; 








RITRAE Pythonh MySQL 2 F im. RAER TA Ndj- 
database-url 的 小 工具 模块 ， 帮 助 我 们 解析 连接 的 URL《〈 仅 用 于 为 我 们 
在 耻 、 端 口 、 密 码 等 不 同 设 置 中 切换 节省 时 间 ) 。 可 以 使 用 pip install 
dj-database-url MysQL-python 安 装 这 两 个 库 ， 不 过 我 们 已 经 在 开发 环 
境 中 安装 好 它们 了 。 我 们 的 MySQL 管 道 非常 简单 ， 如 下 所 示 。 

from twisted.enterprise import adbapi 

class Mysqlwriter(object): 


def | init (self, mysql url): 
conn kwargs = Mysqlwriter.parse mysql url(mysql url) 
self.dbpool - adbapi.ConnectionPool('MySQLdb', 
charset-'utf8', 
use unicode-True, 
connect timeout-5, 
**conn kwargs) 


def close spider(self, spider): 
self.dbpool.close() 


Qdefer.inlineCallbacks 
def process item(self, item, spider): 
try: 
yield self.dbpool.runInteraction(self.do replace, item) 
except: 
print traceback.format exc() 


defer.returnValue(item) 


@staticmethod 
def do_replace(tx, item): 


sql = """REPLACE INTO properties (url, title, price, 
description) VALUES (%s,%S,%S,%S)""" 


args = ( 
item["ur1"][0][:100], 
item["title"][0][:30], 
item["price"][0], 
item["description"][0].replace("NrNn", " ")[:30] 
) 


tx.execute(sql, args) 


4! 





本 示例 的 完整 代码 地 址 


7Zjch89/properties/properties/pipeline/mysql.py. 


本 质 上 ， 大 部 分 代码 仍然 是 模板 化 的 肘 虫 代码 。 我 们 省 略 的 代码 用 
于 将 MYSQL_PIPELINE_URL 设 置 中 包含 的 mysql://user:pass@ip/database 
格式 的 UREL 解 析 为 独立 参数 。 在 爬虫 的 _init_() 中 ， 我 们 将 这 些 参数 
4EZ8 adbapi.ConnectionPool(), #4 adbapi 的 基础 功能 初始 化 MySQL 连 
接 池 。 第 一 个 参数 是 想 要 导入 的 模块 名 称 。 在 该 MySQL 示 例 中 ， 
为 MySsQLdb。 我 们 还 为 MySQL 客 户 端 设 置 了 一 些 额外 的 参数 ， 用 于 处 理 
Unicode 和 超时 。 所 有 这 些 参数 会 在 每 次 adbapi 需 要 打开 新 连接 时 ， 前 
往 底层 的 MysQLdb ,connect() 函 数 。 当 怜 虫 关闭 时 ， 我 们 为 该 连接 池 调 
用 close() 方 法 。 


我 们 的 process_item() 方 法 实际 上 包装 了 
dbpool.runInteraction(). 该 方法 将 稍 后 调用 的 回调 方法 放 入 队列 ， = 
来 自 连 接 池 的 某 个 连接 的 Transaction 对 象 变 为 可 用 时 ， 调 用 该 回调 方 
法 。Transaction 对 象 的 API 与 DB-API 游 标 相 似 。 在 本 例 中 ， 回 调 方 法 
为 do_replace()， 该 方法 在 后 面 几 行进 行 了 定义 。@staticmethod 意 味 着 





该 方法 指 同 的 是 类 ， 而 不 是 具体 的 类 实例 ， 因 此 ， 可 以 省 略 平时 使 用 的 
self 参 数 。 当 不 使 用 任何 成 员 时 ， 将 方法 静态 化 是 个 好 习惯 ， 不 过 即使 
忘记 这 么 做 ， 也 没有 问题 。 该 方法 准备 了 一 个 SQL 字 符 串 和 几 个 参数 ， 
调用 Transaction 的 execute() 方 法 执行 插入 。 我 们 的 SQL 语 句 使 用 了 
REPLACE INT0 来 答 换 已 经 存在 的 条 目 ， 而 个 是 更 常见 的 INSERT INTO, JE 
因 是 如 果 条 目 己 经 存在 ， 可 以 使 用 相同 的 主键 。 在 本 例 中 这 种 方式 非常 
便捷 。 如 果 想 使 用 SQL 返回 数据 ， 如 SELECT 语句 ， 

用 dbpool.runQuery()。 如 果 想 要 修改 默认 游标 ， 可 以 通过 设 

置 adbapi .ConnectionPool() 的 cursorclass 参 数 来 实现 ， 比 如 设 

置 cursorclass=MySQLdb.cursors.Dictcursor， 可 以 让 数据 获取 更 加 便 
TE. 


要 想 使 用 该 管道 ， 需 要 在 settings.py 文 件 的 ITEM_PIPELINES 字 典 中 
添加 它 ， 另 外 还 需要 设置 MYsQL_PIPELINE_URL 属 性 。 




















ITEM_PIPELINES = { . 
"properties. pipelines. mysql.Mysqlwriter': 700, 


MYSQL_PIPELINE_URL = 'mysql://root:pass@mysql/properties' 


执行 如 下 命令 。 


scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=1000 


该 命令 运行 后 ， 可 以 回 到 MySQL 提 示 符 下 ， 按 如 下 方式 查看 数据 
库 中 的 记录 。 


m pacers COUNT(*) FROM properties; 


sql SELECT * — properties LIMIT 4; 


------------------+-------------------------- +--------+-----------+ 
url | HUE | prise | Mar a dpi 
+------------------ +--------------------------+--------+----------- 十 
| http://...0.html | Set Unique Family Well | 334.39 | website c 

| http://...1.html | Belsize Marylebone Shopp | 388.03 | features 

| http://...2.html | Bathroom Fully Jubilee S | 365.85 | vibrant own 
| http://...3.html | Residential Brentford Ot | 238.71 l go court 


4 rows in set (0.00 sec) 





延 时 和 吞吐 量 等 性 能 和 之 前 保持 相同 ， 相 当 不 错 。 





9.3 ”使 用 Twisted 专 用 客户 端 建立 服务 接口 


到 目前 为 止 ， 我 们 看 到 了 如 何 通过 treq 使 用 类 REST API。Scrapy 还 
可 以 和 许多 其 他 使 用 Twisted 专 用 客户 端的 服务 建 并 接口 。 比 如 ， 我 们 
想 要 与 MongoDB 建 并 接口 ， 当 搜索 "MongoDB Python" 时 ， 将 会 得 
到 pyMongo， 该 库 是 阻塞 /同步 的 ， 不 能 和 Twisted 一 起 使 用 ， 除 非 使 用 后 
续 小 节 中 的 方法 ， 在 管道 中 描述 线程 ， 处 理 阻塞 操作 。 如 果 搜 
索 "MongoDB Twisted Python"， 将 会 得 到 txmongo， 该 库 可 以 在 Twisted 
和 Scrapy 中 完美 运行 。 通 常情 况 下 ，Twisted 客 户 问 背后 的 社区 都 很 小 ， 
但 相 比 自行 编写 客户 端 ， 这 仍然 是 一 个 更 好 的 选择 。 我 们 将 使 用 一 个 类 
似 的 Twisted 专 用 客户 端 作为 接口 ， 处 理 Redis 键 值 对 存储 。 








9.3.1 用 于 读 写 Redis 的 管道 


Google Geocoding API 是 按照 IP 进 行 限制 的 。 我 们 可 以 利用 多 个 
IP《〈 例 如 使 用 多 台 服 务 器 ) 进行 缓解 ， 此 时 需要 避免 重复 请 求 其 他 机 器 
上 已 经 完成 地 理 编 码 的 地 址 。 这 种 情况 也 适用 于 之 前 运行 中 曾 见 到 过 的 
地 址 。 我 们 不 想 浪费 宝 贯 的 限额 。 

















请 与 API 供 应 商 沟 通 ， 确 保 在 他 们 的 策略 下 这 种 做 法 是 可 行 的 。 比 如 ， 
你 可 能 必须 每 隔 几 分 钟 /小 时 就 要 丢弃 挥 缓存 记录 ， 或 者 根本 不 允许 缓存 。 

















我 们 可 以 使 用 Redis 的 键 值 对 缓存 ， 从 本 质 上 说 ， 它 是 一 个 分 布 式 
的 字典 。 我 们 已 经 在 vagrant 环 境 中 运行 了 一 个 Redis 实 例 ， 可 以 使 
用 redis-cli 命 令 ， 从 开发 机 连接 它 并 执行 基本 操作 。 


$ redis-cli -h redis 
redis:6379> info keyspace 
# Keyspace 

redis:6379> set key value 
OK 

redis:6379> info keyspace 
# Keyspace 

db0 : keys=1, expires=0,avg_tt1=0 
redis:6379> FLUSHALL 

OK 

redis:6379> info keyspace 
# Keyspace 

redis:6379> exit 


通过 Google 搜 索 "Redis ”Twisted"， 我 们 找到 了 txredisapi 库 。 其 本 
质 区 别 是 它 不 再 是 同步 Python 库 的 包装 ， 而 是 适用 于 Twisted 的 库 ， 它 使 
用 reactor .connectTcP( ) 连 接 Redis、 实 现 Twisted 协 议 等 。 使 用 该 库 的 方 
式 与 其 他 库 类 似 ， 不 过 在 Twisted 应 用 中 使 用 它 时 ， 其 效率 肯定 会 更 高 
一 些 。 我 们 在 安装 它 时 可 以 再 附带 一 个 工具 库 一 一 dj_redis_url， 该 工 
具 库 用 于 解析 Redis 配 置 URL， 我 们 可 以 使 用 pip 进 行 安装 (sudo pip 
install txredisapi dj redis url) ， 和 往常 一 样 ， 在 我 们 的 开发 机 中 
也 已 经 预先 安装 好 了 这 些 库 。 


可 以 按 如 下 代码 初始 化 Rediscache。 


from txredisapi import lazyConnectionPool 
class RedisCache(object): 








def _ init__(self, crawler, redis url, redis nm): 
self.redis url - redis url 
self.redis nm - redis nm 


args - RedisCache.parse redis url(redis url) 
self.connection - lazyConnectionPool(connectTimeout-5, 
replyTimeout-5, 
**args) 
crawler.signals.connect( 
self.item scraped,signal-signals.item scraped) 


该 管道 非常 简单 。 为 了 连接 Redis 服 务 器 ， 我 们 需要 主机 地 址 、 端 
口 等 参数 ， 由 于 这 些 参数 是 以 URL 格 式 存储 的 ， 因 此 需要 使 
用 parse_redis_url() 方 法 解析 该 格式 〈 为 简洁 起 见 已 经 省 略 ) 。 为 键 设 
置 前 级 作为 命名 空间 的 行为 非常 常见 ， 在 本 例 中 ， 我 们 将 其 存储 
在 redis_nm 中 。 然后 ， 使 用 txredisapi 的 lazyConnectionPool1()， 打开 
到 服务 器 的 连接 。 








最 后 一 行使 用 了 一 个 很 有 意思 的 函数 。 我 们 的 目的 是 将 地 理 编码 管 
道 与 该 管道 包装 起 来 。 如 果 在 Redis 中 没有 某 个 值 ， 我 们 将 不 会 设置 该 
值 ， 我 们 的 地 理 编码 管道 将 像 之 前 那样 使 用 API 对 地 址 进行 地 理 编码 。 
在 该 操作 完成 之 后 ， 需 要 有 一 种 方式 在 Redis 中 绥 存 这 些 键 值 对 ， 在 这 
里 是 通过 连接 到 signals.item_scraped 信 号 的 方式 实现 的 。 我 们 定义 的 
回调 〈item_scraped() 方 法 ， 将 很 快 看 到 ) 在 非常 靠 后 的 位 置 被 调用 ， 
此 时 坐标 位 置 将 会 被 设置 。 


M. 











本 示例 的 完整 代码 位 于 


ch09/properties/properties/pipelines/redis.py. 


Fee ert fide RE ItemB) HE RUD EL, DERI SETEBU IS] ER. 
性 。 这 对 Redis 来 说 是 很 有 意义 的 ， 因 为 它 经 名 运行 在 同一 个 服务 器 当 
中 ， 这 使 得 它 运 行 速度 非常 快 。 如 采 不 是 这 种 情况 ， 那 么 可 能 需要 添加 
一 个 基于 字典 的 缓存 ， 与 我 们 在 地 理 编码 管道 中 的 实现 类 似 。 下 面 是 处 
理 传 入 的 Iem 的 方法 。 


Qdefer.inlineCallbacks 

def process item(self, item, spider): 
address - item["address"][0] 
key = self.redis nm + ":" + address 
value - yield self.connection.get(key) 
if value: 

item["location"] - json.loads(value) 

defer.returnValue(item) 




















和 大 家 的 期 望 相同 。 我 们 得 到 了 地 址 ， 为 其 添加 前 组 ， 然 后 使 
用 txredisapi connection 的 get() 方 法 在 Redis 中 查询 。 我 们 在 Redis 中 存 
储 的 值 是 JSON 编 码 的 对 象 。 如 果 值 已 经 设 定 ， 则 使 用 JSON 对 其 进行 解 


码 ， 并 将 其 设 为 坐标 位 置 。 


当 一 个 Item 到 达 所 有 管道 的 结尾 时 ， 我 们 重新 捕获 它 ， 确 保存 储 到 
Redis 的 位 置 值 当 中 。 下 面 是 实现 代码 。 


from txredisapi import ConnectionError 





def item scraped(self, item, spider): 
try: 
location = item["location"] 
value = json.dumps(location, ensure_ascii=False) 
except KeyError: 
return 


address = item["address"][0] 

key = self.redis_nm + ":" + address 

quiet = lambda failure: failure.trap(ConnectionError) 
return self.connection.set(key, value) .addErrback( quiet ) 


这 里 同样 没有 什么 惊 言 。 如 果 我 们 找到 一 个 位 置 ， 束 可 以 得 到 地 
址 ， 为 其 添加 前 级 ， 并 使 用 它们 作为 键 值 对 ， 用 于 txredisapi 连 接 的 
set() 方 法 。 你 会 发 现 该 函数 没有 使 用 @defer .inlinecallbacks， 这 是 因 
为 在 处 理 signals .item_scraped 时 并 不 支持 该 装饰 上 器。 这 就 意味 着 无 法 
再 对 connection.set() 使 用 非常 便捷 的 yield 操 作 ， 不 过 我 们 可 以 做 的 工 
作 是 返回 延迟 操作 ，Scrapy 可 以 用 它 串 联 任何 未 来 的 信号 进行 监听 。 无 
论 何 种 情况 ， 如 果 到 Redis 的 连接 无 法 执行 connection.set()， 怠 会 抛 出 
一 个 异常 。 可 以 通过 添加 自 定义 错误 处 理 到 connection.set() 返 回 的 延 
述 操作 中 ， 静 默 忽略 该 异常 。 在 该 错误 处 理 中 ， 我 们 将 失败 作为 参数 传 
递 ， 并 告知 它们 对 任何 connectionError 执 行 trap() 操 作 。 这 是 Twisted 
的 延迟 操作 API 的 一 个 非常 好 用 的 功能 。 通 过 在 预期 的 异 和 中 使 
用 trap()， 我 们 能 够 以 紧凑 的 方式 静默 忽略 它们 。 


为 了 启用 该 管道 ， 我 们 所 需 做 的 就 是 将 其 添加 到 ITEM_PIPELINES 设 
置 中 ， 并 在 settings .py 文件 中 提供 一 个 REDIS_PIPELINE_URL。 为 该 管道 
设置 一 个 比 地 理 编 码 管道 更 小 的 优先 级 值 非 常 重 要 ， 人 否则 其 运行 就 会 太 
迟 ， 无 法 起 到 作用 。 

ITEM PIPELINES = { ... 


'properties.pipelines.redis.RedisCache': 300, 
'properties.pipelines.geo.GeoPipeline': 400, 














REDIS PIPELINE URL - 'redis://redis:6379' 


我 们 可 以 像 平时 那样 运行 该 朴 虫 。 第 一 次 运行 将 会 和 之 前 类 似 ， 不 
过 接 下 来 的 每 次 运行 都 会 像 下 面 这 样 。 


$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=100 





INFO: Enabled item pipelines: TidyUp, RedisCache, GeoPipeline, 
MysqlWriter, EsWriter 


Scraped... 0.0 items/s, avg latency: 0.00 s, time in pipelines: 0.00 s 
Scraped... 21.2 items/s, avg latency: 0.78 s, time in pipelines: 0.15 s 
Scraped... 24.2 items/s, avg latency: 0.82 s, time in pipelines: 0.16 s 


INFO: Dumping Scrapy stats: {... 
'geo pipeline/already set': 106, 
'item scraped count': 106, 


可 以 看 到 ceoPipeline 和 Rediscache 都 已 经 启用 ， 并 且 RedisCache 会 
首先 进行 3. 男 外 ; 还 可 以 注意 到 geo_ pipeline/already_ set 统 计 值 是 
106。 这 些 是 GeoPipeline 从 Redis 绥 存 中 找到 的 预先 填充 好 的 item， 并 且 
它们 都 不 需要 请 求 Google API 调 用 。 如 果 Redis 绥 存 为 空 ， 你 会 看 到 一 些 
键 依然 会 使 用 Google API 进 行 处 理 。 在 性 和 EJ ili. 我 们 注意 到 
GeoPipeline 引 发 的 初始 行为 现在 没有 了 。 实 际 上 ， 由 于 目前 使 用 了 组 
存 ， 因 此 绕 过 了 每 秒 5 个 请 求 的 API 限 制 。 当 使 用 Redis 时 ， 还 应 当 考 虑 
使 用 过 期 键 ， 使 系统 可 以 周期 性 地 刷新 缓存 数据 。 


9.4 为 CPU 密集 型 、 阻 塞 或 遗留 功能 建立 接口 





本 章 最 后 一 节 讨论 的 是 访问 大 多 数 非 Twisted 的 工作 。 尽 管 有 高 效 
的 异步 代码 所 融 来 的 巨大 收益 ， 但 为 Twisted 和 Scrapy 重 写 每 个 库 ， 既 不 
现实 也 不 可 行 。 使 用 Twisted 的 线程 池 和 reactor.spawnProcess() 方 法 ， 
我 们 可 以 使 用 任何 Python 库 甚 至 其 他 语言 编写 的 二 进 制 包 。 


9.4.1 处 理 CPU 密 集 型 或 阻塞 操作 的 管道 


第 8 章 讲 到 ，reactor 对 于 简短 、 非 阻塞 的 任务 非常 理想 。 如 果 必 须 
要 执行 一 些 更 复杂 或 是 涉及 阻塞 的 事情 ， 该 怎么 做 呢 ? Twisted 提 供 了 
线程 池 ， 可 以 使 用 reactor.callInThread() API 调 用 ， 在 一 些 线程 中 执 
行 慢 操作 ， 而 不 是 在 主线 程 中 执行 〈Twisted 的 reactor) 。 这 就 意味 着 
reactor 会 持续 运行 其 处 理 过 程 ， 并 在 计算 发 生 时 响应 事件 。 请 注意 ， 在 
线程 池 中 的 处 理 不 是 线程 安全 的 。 这 就 是 说 当 你 使 用 全 局 状态 时 ， 叉 会 
出 现 多 线程 编程 中 所 有 的 传统 同步 问题 。 让 我 们 从 该 管道 的 一 个 简单 版 
本 起 步 ， 逐 渐 编 写 出 完整 的 代码 。 

class UsingBlocking(object): 

Qdefer.inlineCallbacks 


def process item(self, item, spider): 
price = item["price"][0] 








out - defer.Deferred() 
reactor.callInThread(self. do calculation, price, out) 
item["price"][0] = yield out 


defer.returnValue(item) 


def do calculation(self, price, out): 
new price = price + 1 
time.sleep(0.10) 
reactor.callFromThread(out.callback, new price) 





在 前 面 的 管道 中 ， 我 们 看 到 了 实际 运行 的 基本 原 语 。 对 于 每 
个 Item， 我 们 抽取 其 价格 ， 并 和 希望 使 用 _do_calculation() 方 法 处 理 它 。 
该 方法 使 用 了 一 个 阻 融 操作 time.sleep()。 我 们 将 使 
用 reactor.callInThread() 调 用 把 它 放 到 另 一 个 线程 中 运行 。 其 中 ， 被 
调用 的 函数 以 及 传 给 该 函数 的 任意 数量 的 参数 将 会 作为 参数 。 显 然 ， 我 





们 不 只 传递 了 price， 还 创建 并 传递 了 一 个 名 为 out 的 延迟 操作 。 当 _do_ 
calculation() 完 成 计算 时 ， 我 们 将 使 用 out 回 调 返 回 值 。 在 下 一 步 中 ， 
我 们 对 这 个 延迟 操作 执行 了 yield 处 理 ， 并 为 价格 设置 了 新 值 ， 最 后 返回 


Item. 


在 do. calculation() 中 ， 注意 到 有 一 个 简单 的 计算 价格 目 增 
1， 然 后 是 100 唉 秒 的 睡眠 。 这 是 非常 多 的 时 间 ， 如 果 在 reactor 线 程 中 调 
用 ， 它 将 使 我 们 每 秒 处 理 的 页 数 无 法 超过 10 页 。 通 过 使 其 在 其 他 线程 中 
运行 ， 就 不 再 有 这 个 问题 了 。 任 务 将 会 在 线程 池 中 排队 ， 等 竺 出 现 可 用 
的 线程 ， 一 旦 进入 线程 执行 ， 访 线程 承 将 睡眠 100 坚 秒 。 最 后 一 步 是 触 
发 out 回 调 。 正 和 常情 况 下 ， 可 以 使 用 out .callback(new_price)， 不 过 由 
于 现在 处 于 男 一 个 线程 中 ， 这 种 方法 不 再 安全 。 如 果 这 样 做 ， 会 导致 延 
述 操作 的 代码 和 Scrapy 的 功能 会 从 男 一 个 线程 调用 ， 人 述 早 会 出 现 错误 的 
数据 。 蔡 代 方案 是 使 用 reactor .callFromThread()， 同样 ， 也 是 将 函数 
作为 参数 ， 并 将 任意 数量 的 额外 参数 传 到 函数 中 。 该 函数 将 会 排队 ， 由 
reactor 线 程 调 用 ; 而 男 一 方面 ， 会 解除 process_item( ) 对 象 yield 操 作 的 
阻塞 ， 为 该 Item 恢 复 Scrapy 操 作 。 


如 果 有 全 局 状态 〈 比 如 计数 器 、 移 动 平 均值 等 ) 的 话 ， 那 么 
在 _do_calculation() 中 使 用 它们 会 发 生 什 么 呢 ? 例如， 我们 添加 两 个 变 
量 beta 和 delta， 如 下 所 示 。 











class UsingBlocking(object): 
def __init__(self): 
self.beta, self.delta = 0, 0 


def _do_calculation(self, price, out): 
self.beta += 1 
time.sleep(0.001) 
self.delta += 1 
new_price = price + self.beta - self.delta + 1 
assert abs(new_price-price-1) < 0.01 


time.sleep(0.10)... 





上 面 的 代码 存在 问题 ， 我 们 会 得 到 断言 错误 。 这 是 因为 如 果 一 个 线 
程 在 self .beta 和 self.delta 之 间 切 换 ， 而 为 一 个 线程 使 用 这 些 
beta/delta 的 值 恢复 计算 价格 ， 那 么 会 发 现 它们 处 于 不 一 致 的 状态 
(beta 比 delta 大 ) ， 因 此 ， 会 计算 出 错误 的 结果 。 短 暂 的 睡眠 使 该 问 
题 更 容易 产生 ， 不 过 即便 没有 它 ， 苋 态 条 件 也 将 很 快 出 现 。 为 了 避免 此 
类 问题 发 生 ， 必 须 使 用 锁 ， 比 如 使 用 Python 的 threading.RLock() 递 归 





锁 。 当 使 用 锁 时 ， 我 们 可 以 确信 不 会 存在 两 个 线程 同时 执行 其 保护 的 临 


界 区 的 情况 。 


class UsingBlocking(object): 
def | init (self): 


self.lock - threading.RLock() 
def do calculation(self, price, out): 


with self.lock: 
self.beta += 1 


new price = price + self.beta - self.delta + 1 


assert abs(new price-price-1) « 0.01 ... 


前 面 的 代码 现在 是 正确 的 。 请 记 住 我 们 并 不 需要 保护 整 段 代码 ， 
需 敌 盖 全 局 状态 的 使 用 就 够 了 。 


M 





本 示例 的 完整 代码 位 于 
à Y H. 


ch09/properties/p'^ 'roperties/pipelines/computation.py X [TH 





要 想 使 用 该 管道 ， 只 需 在 settings.py 文 件 中 将 其 添加 


ITEM PIPELINES E BOAT, 如 下 所 示 。 


ITEM PIPELINES = { ... 
'properties.pipelines.computation.UsingBlocking': 500, 


可 以 按照 平时 那样 运行 该 息 忠 。 按 照 预 期 ， 管 道 延 时 显著 增长 了 
100 曼 秒 ， 不 过 我 们 惊喜 地 发 现 从 旦 最 几乎 保持 不 要 即 每 秒 25 个 item 


左右 。 








9.4.2 ”使 用 二 进 制 或 脚本 的 管道 


对 于 一 个 遗留 功能 来 说 ， 最 不 可 知 的 接口 束 是 独立 的 可 执行 程序 或 
脚本 。 它 可 能 需要 几 秒 钟 时 间 启 动 〈( 比 如 从 数据 库 中 加 载 数据 〉 ， 不 过 
在 这 之 后 ， 它 可 能 会 在 一 小 段 延 时 内 处 理 许多 值 。 即 使 对 于 这 种 情况 ， 
Twisted 仍 然 能 够 履 辣 。 我 们 可 以 使 用 reactor .spawnProcess()API 以 及 
相关 的 protoco1l.ProcessProtocol 运 行 任 何 类 型 的 可 执行 程序 。 来 看 一 
个 例子 ， 访 示例 的 脚本 如 下 所 示 。 

#!/bin/bash 


trap "" SIGINT 
sleep 3 





while read line 
do 

# 4 per second 

sleep 0.25 

awk "BEGIN {print 1.20 * $line}" 
done 








这 是 一 个 简单 的 bash 脚 本 。 当 它 启 动 后 ， 会 禁用 Ctrl + C。 这 是 为 
了 解决 Ctrl + C 派 生 到 子 进程 后 过 早 终止 ， 导 致 Scrapy 自 身 无 法 停止 ， 
无 限 等 待 子 进程 返回 结果 的 系统 特性 。 禁 用 Ctrl + C 后 ， 脚 本 将 会 睡眠 3 
秒 钟 ， 以 模拟 局 动 时 间 。 然 后 脚本 会 从 输入 中 读 取 行 ， 等 待 250 蔓 秒 ， 
再 返回 结果 价格 ， 该 计算 使 用 Linux 的 awk 命令 将 原 值 乘 以 1.2 倍 。 该 脚本 
的 最 大 吞吐 量 是 每 秒 4 个 Item。 可 以 使 用 一 个 简短 的 会 话 对 其 进行 测 
试 ， 如 下 所 示 。 


$ properties/pipelines/legacy.sh 

12 <- If you type this quickly you will wait ~3 seconds to get results 
14.40 

13 <- For further numbers you will notice just a slight delay 

15.60 











由 于 Ctrl + C 被 禁用 ， 我 们 必须 使 用 Ctrl + 了 终止 会 话 。 不 错 ! Al 
我 们 要 如 何在 Scrapy 中 使 用 该 脚本 呢 ? 仍然 从 一 个 简化 的 版 本 起 
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class CommandSlot(protocol.ProcessProtocol): 
def | init (self, args): 
self. queue - [] 
reactor.spawnProcess(self, args[0], args) 


def legacy calculate(self, price): 
d - defer.Deferred() 


self. queue.append(d) 
self.transport.write("%f\n" % price) 
return d 


# Overriding from protocol.ProcessProtocol 
def outReceived(self, data): 
"""Called when new output is received""" 
self. queue.pop(0).callback(float(data)) 


class Pricing(object): 
def _ init (self): 
self.slot - CommandSlot(['properties/pipelines/legacy.sh']) 


@defer.inlineCallbacks 

def process_item(self, item, spider): 
item["price"][0] = yield self.slot.legacy calculate(item["price"][0]) 
defer.returnValue(item) 


我 们 可 以 在 这 里 找到 名 为 Commandslot 的 ProcessProtocol 的 定义 ， 
以 及 Pricing 疏 虫 。 在 _init_() 中 ， 我 们 创建 了 新 的 commandSslot， 其 
构造 方法 初始 化 了 一 个 空 队 列 ， 并 使 用 reactor .spawnProcess() 启 动 了 
一 个 新 的 进程 。 访 调用 将 从 进程 中 传输 和 接收 数据 的 ProcessProtocol 作 
为 第 一 个 参数 。 在 本 例 中 ， 该 值 为 self， 因 为 spawnProcess() 是 
在 protocol 类 中 进行 调用 的 。 第 二 个 参数 是 可 执行 程序 的 名 称 。 第 三 个 
参数 args 将 该 二 进 制程 序 的 所 有 命令 行 参数 作为 字符 串 列表 保留 。 


在 管道 的 process_item() 中 ， 基 本 上 将 所 有 工作 都 委托 给 
commandSslot 的 legacy_calculate() 方 法 ， 它 将 返回 一 个 延迟 操作 ， 并 的 
行 yield 操 作 。1legacy_calculate() 创 建 了 一 个 延迟 操作 ， 使 其 排队 ， 然 
后 使 用 transport .write() 将 价格 写 入 到 进程 当中 。transport 
由 ProcessProtocol 提 供 ， 用 于 让 我 们 和 进程 进行 通信 。 无 论 我 们 何 时 从 
进程 中 接收 到 数据 ， 都 会 调用 outReceived()。 通 过 延迟 操作 排队 ， 以 
及 按 顺序 处 理 的 shell 脚 本 ， 我 们 可 以 从 队列 中 只 弹出 最 旧 的 延迟 操作 ， 
使 用 接收 到 的 值 触发 它 。 到 此 为 止 。 我 们 可 以 通过 在 ITEM_PIPELINES 中 
添加 它 的 方式 ， 启 动 该 管道 ， 并 像 平时 那样 运行 。 

Mod ahi A aa 600, 





如 果 我 们 运行 一 次 ， 就 会 发 现 其 性 能 非常 糟糕 。 如 我 们 所 料 ， 我 们 
的 处 理 成 为 瓶颈 ， 限 制 了 吞吐 量 只 能 达到 每 秒 4 个 Item。 要 想 增 长 吞吐 
量 ， 我 们 所 能 做 的 就 是 对 管道 进行 一 些 修改 ， 人 允许 该 类 并 行 运行 多 个 ， 
如 下 所 示 。 








class Pricing(object): 
def | init (self): 
self.concurrency - 16 
args - ['properties/pipelines/legacy.sh'] 
self.slots - [CommandSlot(args) 
for i in xrange(self.concurrency)] 
self.rr = 0 


@defer.inlineCallbacks 
def process_item(self, item, spider): 
slot = self.slots[self.rr] 
self.rr = (self.rr + 1) % self.concurrency 
item["price"][0] = yield 
slot.legacy_calculate(item["price"] [0] ) 
defer.returnValue(item) 





我 们 将 其 修改 为 局 动 16 个 实例 ， 并 以 轮 询 的 方式 为 每 个 实例 发 送 价 
格 。 该 管道 现在 提供 了 每 秒 16x4 = 64 个 item 的 吞吐 量 。 我 们 可 以 通过 一 
个 快速 肘 取 来 确认 ， 如 下 所 示 。 

$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=1000 


Scraped... 0.0 items/s, avg latency: 0.00 s and avg time in pipelines: 


0.00 s 
Scraped... 21.0 items/s, avg latency: 2.20 s and avg time in pipelines: 
1.48 s 
Scraped... 24.2 items/s, avg latency: 1.16 s and avg time in pipelines: 
0.52 s 





延 时 和 预期 一 样 ， 增 长 到 250 室 秒 ， 不 过 吞吐 量 仍然 是 每 秒 25 个 
item. 


请 注意 ， 前 面 的 方法 中 使 用 了 transport .write() 将 shell 脚 本 输入 中 
的 所 有 价格 排 入 队列 。 对 于 你 的 应 用 而 言 ， 这 种 方式 可 能 合适 ， 也 可 能 
不 合适 ， 尤 其 是 当 它 使 用 了 更 多 的 数据 而 不 仅仅 是 几 个 数字 时 。 本 例 完 
整 代码 会 将 所 有 值 和 回调 排 入 队列 ， 并 且 只 有 在 前 一 次 结果 被 接收 后 ， 
才 会 回 脚本 发 送 新 值 。 你 会 发 现 这 种 方式 对 你 的 遗留 应 用 更 加 友好 ， 不 
过 也 增添 了 一 些 复杂 度 。 























9.5 ”本章 小 结 





本 章 讲解 了 一 些 复杂 的 Scrapy 管 道 。 到 目前 为 止 ， 我 们 已 经 学 习 了 
Twisted 编 程 方面 所 有 可 能 需要 的 内 容 ， 并 且 知 道 了 如 何 实现 进程 、 使 
用 Item 进 程 管道 等 复杂 功能 。 我 们 通过 在 延 时 和 吞吐 量 方面 添加 更 多 管 
道 阶段 ， 看 到 了 性 能 是 如 何 变化 的 。 通 常情 况 下 ， 延 时 和 吞吐 量 被 认为 
是 成 反比 的 ， 不 过 这 是 建立 在 常数 并 发 的 假设 下 的 (例如 线程 的 数 例 有 
限 )〉。 在 我 们 的 例子 中 ， 我 们 从 N =S- T= 25 -0.77 2 19 开 始 ， 在 添加 
管道 后 ， 最 终 达 到 N = 25-3.33 2 83， 并 且 没 有 任何 性 能 问题 。 这 就 是 
— 现在 我 们 可 以 进入 第 10 章 ， 使 Scrapy 的 性 能 更 加 完 








第 10 瘟 ”理解 Scrapy 性 能 





通常 情况 下 ， 性 能 很 容易 出 现 问 题 。 对 于 Scrapy 来 说 ， 性 能 就 不 只 
是 容易 出 现 问 题 了 ， 而 是 几乎 肯定 会 出 现 ， 因 为 它 有 很 多 有 人 导 和 常 理 的 行 
为 。 除 非 你 对 Scrapy 内 部 有 非常 好 的 理解 ， 否 则 你 会 发 现 ， 即 使 非常 努 
力 地 优化 性 能 ， 也 很 可 能 得 不 到 收益 。 这 是 使 用 高 性 能 、 低 延迟 以 及 高 
并 发 环境 复杂 性 的 一 部 分 。 在 优化 瓶颈 性 能 时 ， 阿 姆 达尔 定律 仍然 是 正 
确 的 ， 不 过 除非 你 能 指明 真正 的 瓶 锋 所 在 ， 人 否则 在 系统 其 他 任何 部 分 的 
优化 都 无 法 增长 每 秒 能 够 抓 取 的 item 数 量 〈 吞 吐 量 ) 。 我 们 可 以 从 
Goldratt 博 士 经 典 的 The Goal 一 书 中 获得 更 多 的 感知 ， 这 本 了 商务 书籍 通过 
优秀 的 隐喻 对 瓶颈 、 延 迟 和 吞吐 量 的 理念 进行 了 阐释 。 相 同 的 理念 同样 
也 适用 于 软件 。 本 章 将 帮助 你 找 出 Scrapy 配 置 中 的 瓶 宽 ， 以 及 避免 出 现 
明显 的 错误 。 

请 注意 本 章 是 一 个 进 阶 章节 ， 其 中 会 涉及 一 些 数 学 知识 。 计 算 将 会 
比较 简单 ， 并 且 会 附 有 用 于 展示 相同 概念 的 图 表 。 如 果 你 不 喜欢 数学 ， 
只 需 忽略 掉 公 式 即 可 ， 你 仍然 能 够 获得 Scrapy 性 能 如 何 工 作 的 重要 和 领 
ion 
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10.1  Scrapy 引 擎 一 一 一 种 直观 方式 


并 行 系统 看 起 来 与 管道 系统 很 相似 。 在 计算 机 科学 中 ， 我 们 使 用 队 
列 符号 来 表示 队列 以 及 处 理 中 的 元 素 〈 见 图 10.1 左 侧 ) 。 队 列 系统 的 基 
本 法 则 是 利 特 尔 法 则 ， 访 法则 认为 在 稳定 状态 下 ， 队 列 系统 中 的 元 素数 
量 N) 等 于 系统 吞吐 量 CIO 乘 以 总 排队 /服务 时 间 CS), BIN = T - 
S。 另 外 两 种 形式 是 : T=N/SURS=EN/T, CTH PAYA. 
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图 10.1 利 特 尔 法 则 、 队 列 系 统 以 及 管道 
在 管道 的 几何 形状 中 也 有 相似 的 法 则 〈 见 图 10.1 右 侧 ) 。 管 道 容量 

















CV) 等 于 管道 长 上 度 L 乘 以 横 截面 面积 CAD , BWV =LA. 
如 果 我 们 想象 长 度 表 示 服 务 时 间 CLoSO ， 容 量 表示 处 理 系 统 的 元 


ABU CV~N) ， 横 截面 面积 表示 吞吐 量 CA~N) ， 那 么 利 特 尔 法 则 
和 容量 公式 实际 是 相同 的 事情 。 
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这 个 类 比 有 道理 吗 ? 答案 是 差不多 。 如 果 我 们 将 工作 单位 想象 为 小 滴 
液体 ， 以 恒定 速率 在 管道 内 部 移动 ， 那 么 L 一 S 绝 对 有 意义 ， 因 为 管道 越 长 ， 
水 滴 移 动 伦 费 的 时 间 越 多 。V 一 N 同 样 有 意义 ， 因 为 管道 越 大 ， 能 够 容纳 的 水 
滴 越 多 。 烦 人 的 是 ， 我 们 还 可 以 通过 施加 更 大 压力 的 方式 压 入 更 多 水 滴 。A 
一 I 是 不 太 满 足 类 比 的 一 点 。 在 管道 中 ， 实 际 吞 吐 量 ， 即 每 秒 进出 管道 的 水 


滴 数 量 ， 被 称 为 “体积 流量 *， 除 非 满足 特定 条 件 〈 孔 口 ) ， 否 则 其 与 A< 成 正 

比 ， 而 不 是 A。 这 是 因为 更 宽 的 管道 不 只 意味 着 有 更 多 的 液体 流出 ，j 还 会 使 

液体 流动 更 快 ， 因 为 管 壁 之 间 存 在 更 大 的 空间 。 不 过 为 了 本 章 的 学 习 ， 我 们 
可 以 忽略 这 些 技术 细节 ， 而 是 假设 生活 在 一 个 理想 的 世界 中 ， 在 这 里 压力 和 
速度 都 是 常量 ， 并 且 吞 吐 量 与 横 截 面 面 积 直接 成 正比 。 




















































































































































































































利 特 尔 法 则 和 这 个 简单 的 体积 公式 非常 相似 ， 这 就 使 得 该 “管道 模 
型 ”非常 直观 有 用 。 让 我 们 更 详细 地 看 一 下 图 10.1 中 的 示例 an 假 
设 管道 系统 表示 Scrapy 的 下 载 器 。 第 一 个 非常 “ 细 ” 的 下 载 器 ， 其 总 总 体积 / 
并 发 级 别 N) 可 能 是 8 个 并 发 请 求 。 管 道 长 度 / 延 迟 (S) 对 于 一 个 快速 
的 网 站 来 说 ， 可 能 S=250ms。 在 给 定 N 和 S 时 现在 可 以 计算 处 理 元 素 的 
体积 /吞吐 量 ， 每 秒 请 求 数 为 T=N/S=8/0.25=32。 


你 会 发 现 延 迟 经 闻 是 我 们 无 法 控制 的 ， 因 为 它 依 赖 于 远 端 服务 器 的 
性 能 以 及 网 络 的 延迟 。 我 们 比较 容易 控制 的 是 下 载 器 中 并 发 CN) 的 级 
别 ， 可 以 将 其 从 8 增长 到 16 或 32 个 并 肥 请 求 ， 即 10. D du 
三 个 管道 。 对 于 第 量 的 长 度 《〈 超 出 我 们 控制 范围 之 外 ) ， 可 以 通过 只 
加 横 截 面 面 积 的 方式 增长 体积 ， 也 瓯 是 说 增加 厨 吐 量 ! VAN 

















则 ，16 个 并 发 请 求 时 ， 我 们 得 到 的 每 秒 请 求 数 为 T=N/S=167/0.25= 
64 个 ， 而 在 32 个 并 发 请 求 时 ， 我 们 得 到 的 每 秒 请 求 数 是 T=N/S = 32/ 
0.25 = 128 个 。 太 好 了 ! 我 们 似乎 可 以 通过 增加 并 发 的 方式 ， 使 系统 无 
限 快 。 在 急于 得 出 这 样 的 结论 之 前 ， 还 需要 考虑 队列 系统 级 联 的 影响 。 


10.1.1 级 联 队 列 系统 
当 将 不 同 横 截 面 面 积 /吞吐 量 的 几 个 管道 依次 连接 起 来 时 ， 可 以 很 


直观 地 理解 整个 系统 的 流量 将 由 最 罕 的 《最 小 吞吐 量 : T) 管道 所 限制 
( 见 图 10.2) 。 














图 10.2 不 同 容量 的 级 联 队 列 系统 


你 还 可 以 观察 到 最 罕 管 道 〈 即 瓶颈 ) 的 位 置 ， 决 定 了 其 他 管道 是 如 
何 “ 盾 满 ” 的 。 如 果 考 虑 到 与 系统 内 存 需 求 相关 的 填充 ， 束 会 意识 到 瓶 锋 
的 位 置 是 非常 重要 的 。 我 们 最 好 通过 配置 保持 管道 充满 ， 且 单个 工作 单 
元 的 花 销 最 少 。 在 Scrapy 中 ， 一 个 工作 单元 〈 疏 取 一 个 页 面 ) 主要 是 由 
人 
) 组 成 。 
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这 就 是 为 什么 在 Scrapy 系 统 中 ， 通 第 将 瓶颈 放置 在 下 载 器 中 。 








10.1.2 ”定义 瓶颈 


使 用 管道 系统 作为 类 比 的 一 个 非常 重要 的 好 处 是 ， 它 在 定义 瓶颈 的 
过 程 中 更 加 直观 。 如 果 观 察 图 10.2 就 会 太 现 ,“ 浇 贷 * 前 的 所 有 地 方 部 是 
满 的， 而 之 后 的 所 有 地 方 都 不 是 。 


好 消 轧 是 ， 在 大 多 数 系 统 中 ， 可 以 相对 容易 地 使 用 系统 度量 监控 队 
列 系统 是 如 何 填 满 的 。 通 过 仔细 检查 Scrapy 的 队列 ， 我 们 可 以 了 解 瓶 人 颈 
在 什么 地 方 ， 如 宁 发 现 不 在 下 载 右 中 ， 则 可 以 调整 设置 让 其 变 为 下 载 
项。 没有 改善 瓶颈 的 任何 改进 都 不 会 带 来 吞吐 量 的 收益 。 如 果 修 改 系统 
其 他 部 分 ， 只 会 让 事情 变 得 更 糟 ， 很 有 可 能 将 瓶颈 转移 到 别 的 地 方 。 这 
个 感觉 有 点 像 退 尾 ， 可 能 需要 很 长 时 间 ， 并 且 会 令 你 感到 绝望 。 你 必须 
章 循 系统 方法 ， 定 义 瓶 宽 ， 并 且 需 要 在 修改 任何 代码 或 配置 之 前 , "AH 
道 锤子 应 该 击 中 哪里 ”。 你 在 大 部 分 例子 中 《包括 本 书 的 大 多 数 例子 ) 
可 以 看 到 ， 瓶 颈 不 是 总 在 人 们 期 望 的 地 方 出 现 。 

















10.1.3 ”Scrapy 性 能 模型 
让 我 们 回 到 Scrapy， 详 细 看 一 下 其 性 能 模型 〈 见 图 10.3) 。 


调度 
len(engine. slot. scheduler .mqs) 
len(engine. slot. scheduler. dgs) 


Wis 


engine. scraper, slot.active size 


Miti 

len(engine. downloader. active) 
CONCURRENT_REQUESTS 
CONCURRENT_REQUESTS_PER_DOMAIN 
CONCURRENT_REQUESTS_PER_IP 
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图 10.3 ”Scrapy 性 能 模型 


Scrapy 包 含 如 下 组 成 部 分 。 


调度 器 : 在 这 里 ， 多 个 请 求 会 排队 等 待 下 载 器 处 理 。 它 们 主要 由 
URL 组 成 ， 因 此 会 十 分 紧凑 ， 这 束 意 味 着 即使 拥有 大 量 URL 也 不 会 
对 系统 有 很 大 伤害 ， 并 且 可 以 让 我 们 在 传 入 不 规则 请 求 流 的 情况 下 
能 够 充分 利用 下 载 器 。 

限 流 器 : 这 是 抓 取 过 程 〈 大 储 水 池 ) 反馈 的 安全 阀 ， 如 果 正 在 执行 
的 响应 的 总 计 大 小 超过 5MB， 那 么 它 会 让 前 往 下 载 器 的 后 续 请 求 停 
止 。 这 可 能 会 导致 不 可 预料 的 性 能 起 伏 。 

下 载 器 : 这 是 Scrapy 关 于 性 能 最 重要 的 组 成 部 分 。 它 对 能 够 并 行 执 
行 的 请 求 的 数量 有 着 复杂 的 限制 。 其 延迟 〈 管 道 长 度 ) 等 于 远程 服 
务 器 啊 应 的 时 间 ， 加 上 所 有 网 络 /操作 系统 以 及 Python/Twisted 的 延 
迟 。 我 们 可 以 调整 并 行 请 求 的 数量 ， 不 过 通常 情况 下 ， 我 们 几乎 无 
法 控制 延迟 。 下 载 器 的 容量 由 CONCURRENT_REQUESTS* 设置 限制 ， 我 
们 将 会 很 快 看 到 。 

ER: 这 是 抓 取 过 程 中 将 响应 转 为 Item 和 后 续 请 求 的 部 分 。 同 时 这 
和 
性 能 瓶颈 。 

Item 管 道 : 这 是 我 们 编写 的 代码 的 第 二 个 部 分 。 我 们 的 候 虫 可 以 对 
每 个 请 求生 成 上 百 个 Item， 同 一 时 刻 只 会 处 理 CONCURRENT_ITEMS 
个 。 该 值 十 分 重要 ， 因 为 假设 你 在 管道 中 要 处 理 数据 库 访 问 ， 那 么 
使 用 默认 值 (100) 就 可 能 会 过 高 ， 从 而 在 无 意 则 拖 垮 数据 库 。 


慌 虫 和 管道 都 应 该 使 用 异步 代码 ， 并 且 在 必要 时 引发 更 多 的 延迟 ， 
但 不 应 因此 成 为 瓶颈 。 极 少 情况 下 ， 我 们 的 爬虫 /管道 会 处 理 非常 繁重 
的 事情 。 如 果 发 生 此 种 情况 ， 那 么 服务 器 的 CPU 可 能 会 成 为 瓶颈 。 





10.2 ”使 用 telnet 获 得 组 件 利用 率 


想 要 理解 Request/Item 流 是 如 何 通 过 管道 的 ， 我 们 不 会 真得 去 测量 
流量 (尽管 这 可 能 会 是 一 个 很 棒 的 功能 ) ， 而 是 使 用 更 容易 的 方式 测量 
Scrapy 的 每 个 处 理 阶 段 中 存在 多 少 流体 ， 即 Request/Response/Item。 





我 们 可 以 通过 Scrapy 运 行 的 Telnet 服 务 获取 性 能 信息 。 首 先 ， 
使 用 telnet 命 令 连 接 到 6623 端 口 。 然 后 ， 将 会 在 Scrapy 中 得 到 一 — 
提示 符 。 需 要 小 心 的 是 ， 如 末 你 在 这 里 执行 T REMEE, 例如 
time.sleep(), TOR A IEME m Ife 内 置 的 est() 函 数 可 以 打印 出 一 些 
感 兴趣 的 上 度量。 其 中 一 些 或 者 很 专用 ， 或 者 能 够 从 几 个 核心 度量 推 呆 出 
X. 在 本 章 剩余 部 分 只 会 展示 后 者 。 让 我 们 从 一 个 示例 运行 中 了 解 它 
1]. a 可 以 在 开发 机 中 打开 第 二 个 终端 ， 通 过 telnet 命 令 
连接 6023 端 口 ， 并 运行 est()。 
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本 章 代 码 位 于 chle 目 录 ， 其 中 本 例 位 于 ch1o/speed 目 录 。 





在 第 一 个 终 问 中， 运行 如 下 代码 。 


$ pwd 
/root/book/ch10/speed 
$ 1s 

scrapy.cfg speed 


$ scrapy crawl speed -s SPEED PIPELINE ASYNC DELAY-1 
INFO: Scrapy 1.0.3 started (bot: speed) 


现在 先 不 用 管 scrapy crawl speed 是 什么 ， 以 及 其 参数 表示 什么 。 
— 卖 部 分 会 详细 解释 这 些 。 现 在 ， 在 第 二 个 终端 上 上， 运行 如 下 命 
we 


$ telnet localhost 6023 


>>> est() 

len(engine. downloader .active) : 16 
len(engine.slot.scheduler.mqs) : 4475 
len(engine. scraper .slot.active) : 115 
engine.scraper.slot.active size : 117760 
engine.scraper.slot.itemproc size : 105 


然后 在 第 二 个 终端 按 下 Ctrl + D 退 出 Telnet， 回 到 第 一 个 终端 ， 按 
下 Ctrl + CEER. 











我 们 在 这 里 忽略 了 dqs。 如 果 通 过 JoBDIR 设 置 启用 了 持久 化 支持 的 话 ， 
还 会 得 到 非 零 的 dqs (len(engine. slot.scheduler.dqs) ) , 你 需要 将 添加 
到 mqs 的 大 小 中 ， 以 继续 后 续 分 析 。 























我 们 来 看 一 下 本 例 中 的 这 些 核心 度量 都 表示 什么 。mqs 表 示 目 前 在 
调度 器 中 还 有 很 多 等 待 〈4475 个 请 求 ) 。 还 可 
以 。len(engine.downloader .active) 表 示 目 前 有 16 个 请 求 正在 下 载 器 中 
被 下 载 。 这 和 我 们 在 息 虫 coNCURRENT_REQUESTS 设 置 中 设 定 的 值 相同 ， 所 
以 此 处 非常 好 。 len(engine.scraper.slot. active) 告 知 我 们 正在 进行 抓 
取 处 理 的 啊 应 有 115 个 。 通 过 (engine.scraper.slot.active_size)， 我 
们 知道 这 些 别 应 大 小 总 计 为 115kb。 在 这 些 响 应 中 ， 有 105 个 Item 此 时 
正在 通过 管 管道 处 理 ， 可 以 从 (engine. scraper.slot.itemproc_ size) 看 出 














来 ， 这 惑 意味 着 剩余 的 10 个 请 求 目 前 正在 谎 虫 中 处 理 。 总 体 来 说 ， 我 们 
可 以 看 出 瓶颈 似乎 在 下 载 器 中 ， 在 其 之 前 的 工作 队列 〈mqs) JEH DE 
大 ， 但 下 载 右 已 经 满 负 答 利用 了 ; 而 在 其 之 后 ， 我 们 有 着 数量 很 高 但 叉 
比较 稳定 的 任务 (可 以 通过 多 次 执行 est( ) 来 确认 此 项 )。 


我 们 感 兴 《 趣 的 男 一 个 信息 元 是 stats 对 象 ， 即 通常 在 仆 取 完成 后 打 
印 的 信息 。 我 们 可 以 在 Telnet 中 ， — get_stats()， 以 字典 的 形 
式 在 任何 时 间 访 问 它 ， 并 且 可 以 通过 p( ) 函 数 打印 更 优雅 的 格式 。 


$ p(stats.get_stats()) 
{'downloader/request_bytes': 558330, 














'item scraped count': 2485, 


对 我 们 来 说 ， 目 前 最 感 兴趣 的 度量 是 item_scraped_count， 它 可 以 
iit stats. get value('item scraped count' ) 直接 访问 。 该 度量 告知 我 
们 到 目前 为 止 有 多 少 item 已 经 被 抓 取 ， 它 应 当 以 系统 否 吐 量 〈(Item/ 秒 ) 
的 速率 增长 。 
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为 了 第 10 章 ， 我 编写 了 一 个 简单 的 基准 系统 ， 可 以 让 我 们 在 不 同 场 
景 下 评估 性 能 。 该 系统 的 代码 比较 复杂 ， 你 可 以 
在 speed/spiders/speed.py 中 找到 它 ， 但 我 不 会 详细 讲解 该 代码 。 


该 系统 包含 如 下 功能 。 


e 我 们 的 Web 服 务 器 上 http://localhost:9312/benchmark/.. .目录 的 
处 理 器 。 可 以 通过 调整 URL 参 数 /Scrapy 设 置 控 制 伪 站 点 的 结构 ( 见 
图 10.4) 以 及 页 面 加 载 速度 。 无 需 担 心细 市 ， 我 们 很 快 束 会 看 到 更 
多 示例 。 现 在 ， 可 以 观察 
http://localhost:9312/benchmark/index?p=1 与 http://localhost: 
9312/benchmark/ id:3/rr:5/index?p=1 的 区 别 。 第 一 个 页 面 加 载 时 
间 在 半 秒 之 内 ， 并 且 每 个 详情 页 中 有 一 个 条 目 ; 而 第 二 个 页 面 需要 
5 秒 时 间 加 载 ， 但 每 个 详情 页 中 包含 3 个 条 目 。 我 们 还 可 以 癌 页 面 中 
添加 一 些 隐藏 的 垃圾 数据 ， 使 其 更 大 一 些 。 比 
如 ， http://localhost:9312/ benchmark/ds:100/ detail?id0-0. 
默认 情况 下 (参见 speed/settings.py) ， 页 面 演 染 
在 SPEED_T_RESPONSE = 0.125 秒 内 ， 伪 站 点 包含 SPEED_TOTAL_ITEMS 
= 5000 个 Item。 
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图 10.4 我 们 的 基准 系统 创建 的 具有 可 调整 结构 的 伪 站 点 





e。 疏 虫 Speedspider， 通 过 控制 SPEED_START_REQUESTS_STYLE 设 置 伪造 
一 些 获取 start_requests() 的 方式 ， 并 提供 了 一 个 简单 的 
parse_item() 方 法 。 默 认 情 况 下 ， 我 们 使 
用 crawler .engine.crawl() 方 法 直接 将 所 有 启动 URL 提 供给 Scrapy 
EJ Wid E AF o 

e 管道 pnummyPipeline 伪 造 一 些 处 理 。 它 包含 该 处 理 可 能 导致 的 4 种 延 
RA., 阻塞 /计算 /同步 延迟 (SPEED_PIPELINE_BLOCKING_DELAY， 
这 是 一 种 不 好 的 方式 ) 、 异 步 延迟 
(SPEED_PIPELINE_ASYNC_DELAY， 这 是 一 种 可 以 接受 的 方式 ) 、 使 
用 treq 库 的 远程 API 调 用 CSPEED PIPELINE API VIA TREQ， 这 是 一 
种 可 以 接受 的 方式 ) 以 及 使 用 Scrapy 的 crawler .engine.download() 
的 远程 API 调 用 (SPEED PIPELINE API VIA _DOWNLOADER， 这 是 一 种 
不 太 好 的 方式 ) 。 默 认 情 况 下 ， 该 管道 不 会 添加 任何 延迟 。 

。 在 settings.py 中 包含 了 一 组 高 性 能 设置 。 所 有 可 能 会 造成 系统 有 
任何 减 慢 的 设置 都 已 经 被 禁用 。 由 于 我 们 只 访问 本 地 服务 器 ， 因 此 
针对 单 域名 请 求 数 的 限制 也 被 禁用 了 。 

e 与 第 8 章 类 似 的 少量 度量 捕获 扩展 。 它 将 周期 性 地 打印 出 核心 度量 
指标 。 

我 们 已 经 在 前 面 的 例子 中 使 用 了 该 系统 ， 不 过 让 我 们 重新 运行 一 次 
模拟 ， 并 使 用 Linux 的 时 间 工 具 测量 完整 的 执行 时 间 。 可 以 在 如 下 代码 
中 看 到 被 打印 出 来 的 核心 度量 指标 。 


$ time scrapy crawl speed 














INFO: s/edule d/load scrape p/line done mem 
0 0 


INFO: 0 0 0 0 

INFO: 4938 14 16 0 32 16384 
INFO: 4831 16 6 0 147 6144 
INFO: 119 16 16 0 4849 16384 
INFO: 2 16 12 0 4970 12288 


real 0m46.561s 


l—— dee 


m €—— | 
> 








这 种 级 别 的 透明 度 是 非常 明显 的 。 我 缩短 了 列 名 ， 不 过 它们 应 该 仍 
然 能 够 清楚 说 明 含 义 。 初 始 时 ， 在 调度 器 中 有 5000 个 URL， 而 在 结 
时 ， 完 成 列 中 也 有 5000 个 item。 下 载 器 作为 瓶颈 ， 已 经 被 充分 利用 ， 根 
据 设 置 始终 会 有 16 个 活跃 的 请 求 。 抓 取 操 作 主 要 是 爬虫 ， 因 为 如 我 们 
在 pyline 列 所 见 ， 管 道 是 空 的 ， 由 于 它 通 常 是 在 瓶颈 之 后 ， 因 此 虽然 一 
定 程度 上 被 利用 了 ， 但 是 没有 充分 利用 。 抓 取 5000 个 Item 花 费 了 46 秒 的 
时 间 ， 使 用 的 并 发 请 求 N = 16， 即 每 个 请 求 的 平均 时 间 是 46 - 16 / 5000 
= 147ms， 而 不 是 我 们 期 望 的 125ms， 不 过 这 也 还 可 以 接受 。 





10.4 标准 性 能 模型 





标准 性 能 模型 在 Scrapy 功 能 正常 且 下 载 莫 为 性 能 憩 贷 时 成 并 。 在 这 
种 情况 下 ， 可 以 在 调度 器 中 看 到 一 些 请 求 ， 而 在 下 载 器 中 则 是 并 发 请 求 
数 的 最 大 值 〈《 见 图 10.5) 。 抓 取 程 序 〈 爬 虫 和 管道 ) 被 轻 度 加 载 ， 并 且 
处 理 中 的 啊 应 数 不 会 持续 增长 。 
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图 10.5 “标准 性 能 模型 及 一 些 实验 结果 
有 3 个 主要 设置 用 于 控制 下 载 嚣 能 


力 : CONCURRENT_REQUESTS、 CONCURRENT_REQUESTS_PER_DOMAIN 以 及 
CONCURRENT_REQUESTS_PER_IP。 其 中 第 一 个 是 粗 调控 制 。 无 论 如 何 都 不 
会 在 同一 时 间 有 超过 coNcURRENT_REQUESTS 数 量 的 请 求 处 于 活跃 状态 。 而 
如 果 你 的 目标 是 单个 域名 或 相对 较 少 的 几 个 域 











名 ，CONCURRENT_REQUESTS_PER_DOMAIN 可 能 会 进一步 限制 活跃 请 求 的 数 
tg. URW J CONCORRENT. REQUEESTS PER TP, VP 

么 CONCURRENT_REQUESTS_PER_DOMAIN 就 会 被 忽略 ， 此 时 有 效 的 限制 将 会 
是 针对 单个 〈 目 标 ) IP 的 请 求 数 。 比 如 ， 当 目标 是 一 些 共享 主机 站 点 

时 ， 多 个 域名 可 能 会 指 同 同一 台 服 务 器 ， 该 设置 可 以 帮助 你 不 会 过 度 攻 
击 该 服务 器 。 


为 了 保持 现在 的 性 能 探索 尽 可 能 简单 ， 我 们 通过 
使 coNCURRENT_REQUESTS_PER_IP 保 留 为 默认 值 CO) 以 禁用 每 个 耻 的 限 
制 ， 并 且 设 置 cONCURRENT_REQUESTS_PER_DOMAIN 的 值 为 非常 大 的 数值 
(1000000) 。 这 样 的 组 合 可 以 有 效 禁 用 针对 IP 和 域名 的 限制 ， 下 载 右 
的 并 发 数量 可 以 完全 由 coNCURRENT_REQUESTS 来 控制 . 


我 们 希望 系统 吞吐 量 依赖 于 下 载 页 面 所 花费 的 平均 时 间 ， 包 括 远 程 
服务 器 部 分 以 及 我 们 的 系统 (Linux, Twisted/Python) 的 延迟 (tyownload 
= tresponse + loverhead) 。 如 果 能 够 考虑 一 些 局 动 和 结束 时 间 也 是 很 好 的 。 
它 包括 你 得 到 一 个 响应 的 时 间 与 其 Item 从 管道 另 一 端 出 来 的 时 间 之 间 的 
eaaa a 
时 的 上 时间 。 


总 之 ， 如 采 你 需要 完成 N 个 请 求 的 任务 ， 并 且 我 们 的 惟 虫 己 经 得 到 
了 适当 的 调整 ， 那 么 你 应 该 会 在 下 述 公式 所 得 的 时 间 内 完成 。 














N- ( A esponse ale Love rhead ) i 
J CONCURRENT REQUESTS ' ^"/stop 


我 们 无 法 控制 这 些 参数 中 的 大 部 分 ， 这 多 少 让 人 有 些 遗 憾 。 我 们 可 
以 使 用 一 台 更 强大 的 服务 器 来 稍微 控制 fj ,oneog， 类 似 情况 还 
有 tsiardtstop“ 该 参数 几乎 不 值得 为 之 努力 ， 因 为 我 们 只 会 在 每 次 运行 时 
才 会 花费 该 时 间 ) 。 除 了 对 NN 个 请 求 的 给 定 工 作 量 有 少许 改善 外 ， 我 们 
所 能 细心 调整 的 数值 只 有 coONCURRENT_REQUESTS， 它 通常 依赖 于 我 们 访问 
远程 服务 器 的 困难 程度 。 如 果 我 们 将 其 设 定 为 一 个 非常 大 的 数值 ， 在 某 
一 时 刻 ， 会 使 服务 器 的 CPU 能 力 或 远程 服务 器 及 时 响应 的 能 力 达 到 饱 
和 ， 也 就 是 说 ，+esponse 将 会 突 增 ， 因 为 目标 网 站 对 我 们 实施 了 限 速 、 封 
禁 ， 或 者 我 们 造成 了 目标 网 站 宕 机 。 


让 我 们 运行 一 个 实验 来 检查 我 们 的 理论 。 我 们 将 以 tesponse € 


{0.125s, 0.25s, 05s}. CONCURRENT_REQUESTSE {8, 16, 32, 64} 的 条 件 扑 取 
2000 个 item， 如 下 所 示 。 
$ for delay in 0.125 0.25 0.50; do for concurrent in 8 16 32 64; do 
time scrapy crawl speed -s SPEED_TOTAL_ITEMS=2000 \ 


-s CONCURRENT_REQUESTS=$concurrent -s SPEED_T_RESPONSE=$delay 
done; done 


在 我 的 笔记 本 上 ， 完 成 2000 个 请 求 的 时 间 如 表 10.1 所 示 《 以 秒 为 单 
M a 
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CONCURRENT_REQUESTS jl125ms/ 请 求 D250ms/ 请 求 500ms/ 请 求 





警告 : 接 下 来 将 会 是 令 人 讨厌 的 计算 ! 你 可 以 略 读本 段 内 容 。 我 们 
可 以 在 图 10.5 中 看 到 部 分 结果 。 通 过 重新 排列 最 后 的 公式 ， 我 们 可 以 将 
其 转换 为 更 加 简单 的 形式 〈 即 y = toverhead © X + titarstop， 其 中 gx = N / 
CONCURRENT REQUESTSflly = top * X + tiesponse)。 使 用 最 小 二 乘法 
CExcel 函 数 为 LINEST) 和 前 面 的 数据 ， 我 们 可 以 计算 得 到 toverpead = 
6ms; Mitsarystop = 3.1S。toverhead 古 一 个 很 小 的 数值 ， 而 启动 时 间 却 非常 
显著 ， 不 过 它 支 持 了 数 干 个 URL 的 长 时 间 运 行 。 因此， 我 们 将 使 用 一 个 
非常 有 用 的 公式 ， 以 请 求 数 / 秒 为 单位 近似 系统 的 吞吐 量 ， 如 下 所 示 。 


N 
Ljob = tstart/stop 


通过 运行 N 个 请 求 的 长 时 间 任 务 ， 我 们 可 以 测量 出 op 的 汇总 时 间 ， 





然后 直接 计算 T。 


10.5 解决 性 能 问题 


现在 我 们 应 当 对 系统 预期 拥有 的 性 能 是 什么 有 了 充分 的 了 解 ， 接 下 
来 看 一 下 如 果 没 有 得 到 想 要 的 性 能 时 应 当 如 何 操作 。 我 们 将 通过 探讨 具 
体 症状 来 展示 不 同 的 问题 案例 ， 执 行 示例 疏 忠 进行 复 现 ， 探 讨 根本 原 

因 ， 最 终 提 供 解决 问题 的 操作 。 案 例 展示 的 顺序 从 系统 顶层 问题 逐步 到 
低层 次 的 Scrapy 技 术 细节 。 这 就 意味 着 更 普遍 的 案例 可 能 会 出 现在 没 屠 
么 常见 的 案例 之 后 。 在 探索 你 的 性 能 问题 之 前 ， 请 完整 阅读 本 章 全 部 内 
Be 














10.5.1 ”案例 #1: CPU 饱和 


症状 在 某 些 情况 下 ， 你 增加 了 并 发 级 别 ， 但 没有 得 到 性 能 提升 。 
当 降 低 并 发 级 别 时 ， 一 切 工 作 再 次 回归 预期 〈 见 图 10.6) 。 你 的 下 载 器 
可 以 被 充分 利用 ， 但 是 似乎 每 个 请 求 的 平均 时 间 出 现 了 激增 。 当 在 
UNIX/Linux 系 统 中 使 用 top 命 令 、 在 Power Shell 中 使 用 ps 命令 或 在 
Windows 中 使 用 任务 管理 器 查看 CPU 负载 如 何 时 ， 会 发 现 CPU 负载 非常 
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CONCURRENT REQUESTS 


Elo. ” 当 并 发 增长 到 一 定 程度 后 ， 性 能 趋 于 平 组 
示例 : 假设 运行 了 如 下 命令 。 


$ for concurren t in 25 50 100 150 200; do 








time scrapy crawl speed -s SPEED_TOTAL_ITEMS=5000 \ 
-S CONCURRENT_REQUESTS=$concurrent 
done 


你 得 到 了 其 抓 取 5000 个 UREL 的 时 间 。 在 表 10.2 中 ， 期 望 值 一 列 是 基 
于 前 面 得 到 的 公式 计算 所 得 ， 而 CPU 负载 是 通过 top 命 命 今 观察 得 到 的 
(可 以 在 开发 机 中 使 用 第 三 个 终端 运行 该 命令 ) 。 


表 10.2 


实际 值 
( 秒 ) 











在 我 们 的 实验 中 ， 由 于 几乎 不 执行 任何 处 理 ， 因 此 能 够 得 到 高 并 
发 。 而 在 一 个 更 复杂 的 系统 中 ， 很 可 能 会 更 早 地 看 到 该 行为 。 


讨论 : Scrapy 重 度 使 用 单一 线程 ， 当 达到 很 高 级 别 的 并 发 时 ，CPU 
可 能 会 成 为 瓶颈 。 假 设 不 使 用 任何 线程 池 ， 那 么 Scrapy 应 当 使 用 的 CPU 
负载 建议 在 80% 一 90%。 请 记 住 你 可 能 在 其 他 系统 资源 上 遇 到 相似 的 问 
题 ， 比 如 网 络 带宽 、 内 存 或 磁盘 重 吐 量 ， 不 过 这 些 都 很 少见 ， 并 用 会 沙 
入 通用 系统 的 管理 范畴 ， 因 此 就 不 在 这 里 进一步 强调 了 。 


解决 方案 : 通常 假设 你 的 代码 是 有 效 的 。 你 可 以 通过 在 同一 台 服 务 
器 上 运行 多 个 Scrapy 扑 虫 ， 以 使 总 计 并 发 超过 
CONCURRENT_REQUESTS。 这 可 以 帮助 你 利用 更 多 可 用 核心 ， 尤 其 
是 当 管道 的 其 他 服务 或 其 他 线程 不 使 用 它们 的 时 候 。 如 果 需 要 更 多 的 并 








发 ， 可 以 使 用 多 台 服 务 器 (参见 第 11 章 ) ， 这 种 情况 下 可 能 还 需要 更 多 
可 用 的 资金 、 网 络 带宽 以 及 磁盘 否 吐 量 。 始终 检查 CPU 利 用 率 是 你 :的 首 


要 约束 。 
10.5.2 ”案例 #2: 代码 阻塞 

证 状 : 你 所 观察 到 的 行为 无 法 说 通 。 和 期 望 值 相 比 ， 系 统 非常 慢 ， 
并 且 奇 怪 的 是 ， 即使 当 你 改变 coNcuRRENT_REQUESTS 的 值 时 ， 速度 也 没有 


显 昔 变化 〈 见 图 10.7) 。 下 载 器 看 起 来 总 是 空 的 〈 少 于 
CONCURRENT_REQUESTS) ， 而 抓 取 程序 却 有 不 少 啊 应 。 
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图 10.7 阻塞 代码 以 不 可 预测 的 方式 使 并 发 无 效 


示例 : 你 可 以 使 用 两 个 基准 设置 : SPEED_SPIDER_BLOCKING_DELAY 和 
SPEED_PIPELINE_BLOCKING_DELAY 〈 它 们 具有 相同 的 效果 ) ， 对 每 个 响应 
启用 一 个 100ms 的 阻塞 。 在 给 定 并 发 级 别 时 ， 我 们 期 望 100 个 UREL 应 当 花 
费 2~3 秒 ， 但 无 论 coONCURRENT_REQUESTS 的 值 是 多 少 ， 我 们 总 是 需要 花费 
大 约 13 秒 的 时 间 ( 见 表 10.3) 。 


for concurrent in 16 32 64; do 

time scrapy crawl speed -s SPEED_TOTAL_ITEMS=100 \ 

-S CONCURRENT_REQUESTS=$concurrent -s SPEED SPIDER BLOCKING DELAY-0.1 
done 








表 10.3 


讨论 : 任何 阻塞 代码 都 会 立即 抵消 掉 Scrapy 的 并 发 性 ， 本 质 上 相当 
于 设置 CONCURRENT_REQUESTS= 1。 根 据 上 面 的 简单 公式 ，100URL 
100ms《〈 阻 塞 延 迟 ) = 10 秒 + tsarstop， 充 分 解释 了 我 们 所 看 到 的 延迟 。 


无 论 阻 蹇 代码 是 在 管道 中 还 是 在 朴 虫 中 ， 你 都 会 发 现 抓 取 程 序 可 以 
被 充分 利用 ， 但 其 前 后 的 模块 都 是 空 的 。 这 看 起 来 违背 了 前 面 讲 过 的 管 
道 的 物理 现象 ， 不 过 由 于 我 们 已 经 不 再 拥有 一 个 并 发 系统 了 人， 所 以 管道 
规则 不 再 适用 。 该 错误 非 第 容易 发 生 ( 比 如 使 用 阻 旺 API〉 ， 你 一 定 会 
在 茶 一 时 刻 出 现 该 错误 。 你 会 注意 到 类 似 的 讨论 同样 适用 于 复杂 代码 的 
计算 。 你 应 当 为 此 类 代码 使 用 多 线程 ， 正 如 我 们 在 第 9 章 中 所 看 到 的 ; 
a 我 们 将 会 在 第 11 章 中 看 到 一 个 相关 
示例 。 


解决 方案: 将 假设 你 继承 了 基 人 代码， 并 且 不 清楚 阻塞 代码 位 于 何 











处 。 如 果 该 系统 在 没有 任何 管道 的 情况 下 仍然 可 以 工作 ， 那 么 禁用 这 些 
管道 ， 并 检查 是 否 仍 存在 奇怪 的 行为 。 如 果 仍 存在 ， 那 么 阻塞 代码 位 于 
爬虫 中 。 如 果 不 再 存在 ， 那 么 依次 启用 管道 ， 观 察 问 题 是 人 否 开 始 出 现 。 
如 果 该 系统 在 缺少 任何 运行 中 的 模块 的 情况 下 无 法 正常 运转 ， 那 么 可 以 
在 每 个 管道 阶段 的 功能 之 间 添 加 一 些 日 志 消 息 (或 插入 虚拟 管道 打印 时 
间 惟 ) 。 通 过 检查 日 志 ， 可 以 轻松 检测 出 系统 在 什么 地 方 花费 了 最 多 的 
时 间 。 如 果 和 希望 有 一 个 更 加 长 期 /可 复 用 的 解决 方案 ， 可 以 使 用 虚拟 管 

道 跟 踪 你 的 请 求 ， 在 Request 的 meta 字 段 中 为 每 个 阶段 添加 时 间 惟 。 最 

后 ，hook 到 item_scraped 信 号 ， 并 记录 时 间 戳 日志。 一 旦 你 发 现 阻 塞 代 
码 ， 则 应 将 其 转换 为 Twisted/ 异 步 代码 ， 或 使 用 Twisted 的 线程 池 。 如 果 
想 要 查看 该 转换 的 效果 ， 可 以 将 SPEED_PIPELINE_BLOCKING_DELAY 蔡 换 

为 SPEED ”PIPELINE_ASYNC_DELAY， 重 新 运行 前 面 的 示例 。 性 能 的 变化 将 
TA B. 


10.5.3 ”案例 43: 下 载 器 中 的 “垃圾 ” 
症状 你 得 到 的 吞吐 量 低 于 预期 。 下 载 器 看 起 来 有 时 会 有 比 


CONCURRENT_REQUESTS 更 多 的 请 求 。 


示例 : 模拟 以 0.25 秒 啊 应 时 间 的 情况 下 载 1000 个 页 面 。 按 照 默 认 的 
16 个 并 发 ， 根 据 公 式 需 要 花费 大 约 19 秒 的 时 间 。 我 们 使 用 一 个 管道 ， 
用 crawler .engine.download( ) 制 造 到 伪造 API 的 额外 HTTP 请 求 ， 其 啊 应 
时 间 在 1 秒 之 内 。 你 可 以 通过 http:// 
localhost:9312/benchmark/ar: 1/api?text=helloit7{y Zin ( 见 图 
10.8) 。 让 我 们 运行 一 个 怜 取 程 序 。 

$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=1000 -S SPEED_T_ 


RESPONSE=0.25 -s SPEED_API_T_RESPONSE=1 -s SPEED_PIPELINE_API_VIA_ 
DOWNLOADER=1 























s/edule d/load scrape p/line done mem 
968 32 32 32 0 32768 
952 16 0 0 32 0 
936 32 32 32 32 32768 


real 0m55.151s 
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图 10.8 ”由 虚假 API 请 求 数 定义 的 性 能 


非常 奇怪 ! 我 们 的 任务 不 但 花费 了 预期 的 3 倍 时 间 ， 还 超出 了 下 载 
器 定义 的 CONCURRENT_REQUESTS 所 设 定 的 16 个 活跃 请 求 数 (d/1oad) o F 
Mas AEH, ANE TER iim Le. Rees MEME, FFE 
男 一 个 控制 台中 打开 到 Scrapy 的 telnet 连 接 。 之 后 ， 就 可 以 查看 下 载 器 中 
有 哪些 请 求 是 活跃 的 了 。 

$ telnet localhost 6023 


>>> engine.downloader.active 
set([<POST http://web:9312/ar:1/ti:1000/rr:0.25/benchmark/api>, ... ]) 








看 起 来 它 处 理 的 大 部 分 是 API 请 求 ， 而 不 是 下 载 正常 页 面 。 


讨论 : 你 可 能 会 认为 没有 人 使 用 crawler .engine.download()， 因为 
它 看 起 来 会 比较 复杂 ， 不 过 它 在 Scrapy 的 基 代 码 中 使 用 了 两 次 ， 分 别 
是 robots.txt 中 间 件 和 多 媒体 管道 。 因 此 ， 当 人 们 需要 使 用 Web API 
时 ， 它 也 会 被 推荐 为 一 种 解决 方案 。 因 为 使 用 它 要 比 使 用 阻塞 API 更 
好 ， 比 如 我 们 在 前 面 章节 中 看 到 的 流行 的 Python 包 requests; MH, f 
用 它 还 会 比 理解 Twisted 编 程 和 使 用 treq 简 单一 些 。 现 在 既然 有 了 咱们 这 
本 书 ， 这 些 就 不 再 是 使 用 它 的 借口 了 。 另 一 方面 ， 该 错误 非常 难 调试 ， 
所 以 应 当 在 研究 性 能 时 主动 检查 下 载 器 中 的 活跃 请 求 。 如 果 发 现 API 或 
多 媒体 URL 不 是 你 讨 取 的 直接 目标 ， 那 么 就 意味 着 某 些 管道 使 用 了 
crawler.engine.download() 来 执行 HTTP 请 求 。 由 于 我 们 的 
CONCURRENT_REQUESTS 限 制 不 适用 于 这 些 请 求 ， 也 就 意味 着 我 们 很 可 能 
到 下 载 器 加 载 的 请 求 数 超过 cONCURRENT_ REQUESTS, “EA MOKA LEA 
盾 。 除 非 虚 假 请 求 数 降 低 到 coNcuRRENT _ ”REQUESTS 以 下 ， 否 则 调度 器 不 
会 获取 新 的 正常 页 面 请 求 。 


因此 ， 我 们 从 系统 中 得 到 的 否 吐 量 相当 于 原始 请 求 持续 1 秒 APIE 
XR) ， 而 不 是 0.25 秒 《页 面 下 载 延 迟 ) 的 吞吐 量 不 是 一 种 巧合 。 这 种 情 
况 特别 容易 令 人 困惑 ， 因 为 除非 API 调 用 比 页 面 请 求 慢 ， 否 则 我 们 不 会 
注意 到 任何 性 能 下 降 。 


解决 方案 : 我 们 可 以 使 用 treq 代 蔡 crawler .engine.download( ) 来 解 
决 该 问题 。 你 将 发 现 这 会 使 抓 取 程 序 的 性 能 突 增 ， 这 对 于 API 架 构 来 说 
可 能 是 个 坏 消 息 。 我 将 从 一 个 低 数值 的 CONCURRENT_REQUESTS 开 

台 ， 逐 渐 增 长 以 确保 不 会 使 API 服 务 器 过 载 。 


























下 面 是 和 前 面相 同 的 运行 示例 ， 不 过 这 次 使 用 了 treq。 


$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=1000 -s SPEED_T_ 
RESPONSE-0.25 -s SPEED API T RESPONSE-1 -s SPEED PIPELINE API VIA TREQ-1 


s/edule d/load scrape p/line done mem 


936 16 48 32 0 49152 
887 16 65 64 32 66560 
823 16 65 52 96 66560 


real 0m19.922s 


你 会 发 现 一 个 非常 有 趣 的 事情 。 管 道 (p/line) 似乎 包含 比 下 载 器 
(d/load) 更 多 的 条 目 〈 见 图 10.9) 。 并 且 了 解 其 原 
因 也 很 有 趣 。 





N-loreQ ~ 





. 100 ms/req 4 
N=64 req 


图 10.9 ”拥有 长 管道 非常 完美 〈 在 Google 图 片 中 查看 “industrial heat exchanger") 


下 载 器 如 预期 一 样 ， 充 分 加 载 了 16 个 请 求 。 也 就 是 说 ， 系 统 吞 吐 量 
为 T= N /S = 16 /0.25= 64 个 请 求 / 秒 。 我 们 可 以 通过 观察 done 列 的 增长 
进行 确认 。 一 个 请 求 会 在 下 载 器 中 花费 0.25 秒 ， 但 是 由 于 缓慢 的 API 请 
求 ， 它 会 在 管道 中 花费 1 秒 的 时 间 。 这 意味 着 在 管道 中 pine) ， 我 们 
期 望 看 到 平均 N =T-S = 64:1 = 64 个 Item。 非 常 好 。 这 表示 现在 管道 有 瓶 
颈 吗 ? 不 ， 因 为 我 们 没有 限制 同时 在 管道 中 处 理 的 响应 数量 。 只 要 数值 
不 是 无 限 增加 ， 就 能 够 很 好 地 运行 。 在 下 一 节 中 ， 我 们 将 看 到 更 多 关于 


这 个 问题 的 讨论 。 
10.5.4 RPJ #4: CERTA IZ EGER IS] Iw Xs S E Ta (A 


症状 Peas LP ip tapes, FFA BUN TARR. WARES ASOT 
重复 。 抓 取 程序 的 内 存 使 用 率 很 高 。 


示例 ;此 处 我 们 使 用 了 和 前 面 一 样 的 设置 (使 用 了 treq)〉， 不 过 响 
应 会 比较 大 ， 大 约 是 120KB 的 HTML。 如 你 所 见 ， 此 时 花费 了 31 秒 的 时 
间 完 成 ， 而 不 是 20 秒 左右 〈 见 图 10.10) 。 

$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=1000 -s SPEED_T 


RESPONSE=0.25 -s SPEED_API_T_RESPONSE=1 -s SPEED_PIPELINE_API_VIA_TREQ=1 
-S SPEED DETAIL EXTRA SIZE-120000 





























s/edule d/load scrape p/line done mem 
952 16 32 32 0 3842818 
917 16 35 35 32 4203080 
876 16 41 41 67 4923608 
840 4 48 43 108 5764224 
805 3 46 27 149 5524048 


real 0m30.611s 


= 




















图 10.10 FRAPAR S oe LAS AN MN KA BR 


讨论 : 我 们 可 能 会 天 真 地 尝试 将 这 种 延迟 解释 为 “创建 、 传 输 、 处 
理 页 面 需要 花费 更 多 时 间 ”， 不 过 这 并 不 是 此 处 发 生 的 情况 。 此 处 有 一 
个 硬 编码 〈 编 写 代 码 时 写 入 ) 的 对 请 求 总 大 小 的 限制 : max active size 
三 5000000。 假 设 每 个 请 求 的 大 小 等 于 其 请 求 体 的 大 小 ， 并 且 至 少 是 
1KB. 





一 个 重要 的 细 贡 是 ， 该 限制 可 能 是 Scrapy 最 巧妙 且 本 质 的 机 制 ， 用 
于 防止 过 慢 的 爬虫 或 管道 。 如 果 你 的 任何 一 个 管道 的 吞吐 量 比 下 载 器 的 
重 吐 量 更 慢 ， 节 终 就 会 发 生 这 种 情况 。 当 管道 处 理 时 间 过 长 时 ， 即 使 很 
小 的 请 求 ， 也 很 容易 触发 该 限制 。 下 面 是 一 个 管道 超 长 的 极端 案例 ，80 
秒 之 后 就 会 开始 产生 问题 。 


$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=10000 -s SPEED_T_ 
RESPONSE=0.25 -s SPEED_PIPELINE_ASYNC_DELAY=85 




















解决 方案: 对 于 已 存在 的 基础 架构 ， 针 对 该 问题 几乎 无 计 可 施 。 妆 
你 不 再 需要 时 《比如 息 虫 之 后 )， 清 空 啊 应 体 是 个 不 错 的 选择 ， 不 过 在 
写 操作 时 执行 该 操作 不 会 重 置 Scraper 的 计数 器 。 所 有 你 能 做 的 就 是 降低 
管道 的 处 理 时 间 ， 从 而 有 效 减 少 Scraper 中 处 理 的 响应 数量 。 可 以 使 用 传 
统 的 优化 手段 实现 它 : 检查 可 能 与 之 交互 的 API 或 数据 库 是 人 否 能 够 支持 
抓 取 程序 的 吞吐 量 ;分析 抓 取 程 序 ， 将 功能 管道 移动 到 批 处 理 / 后 处 理 
系统 ;使 用 更 强大 的 服务 器 或 分 布 式 爬 取 。 


10.5.5 RH #5: 有 限 / 过 度 item 并 发 造成 的 游 出 


症状 : 你 的 疏 虫 为 每 个 啊 应 创建 了 多 个 Item。 你 得 到 的 吞吐 量 低 于 
预期 ， 并 且 可 能 和 前 面 案例 中 的 开 / 关 模式 相同 。 


示例 : 这 里 ， 我 们 有 一 个 稍微 不 太一 样 的 设置 ， 我 们 有 1000 个 请 
求 ， 并 且 它 们 的 每 个 返回 页 面 都 有 100 个 Item。 啊 应 时 间 是 0.25 秒 ，Item 
管道 处 理 时 间 为 3 秒 。 我 们 设置 coONCURRENT_ITEMS 的 值 从 10 到 150， 执 行 
多 次 。 

for concurrent_items in 10 20 50 100 150; do 

time scrapy crawl speed -s SPEED TOTAL ITEMS-100000 -s \ 

SPEED T RESPONSE-0.25 -s SPEED ITEMS PER DETAIL-100 -s \ 


SPEED PIPELINE ASYNC DELAY-3 -s \ 
CONCURRENT ITEMS-$concurrent items 

















done 

s/edule d/load scrape p/line done mem 
952 16 32 180 0 243714 
920 16 64 640 0 487426 
888 16 96 960 0 731138 


讨论 : ERFARET, VATRULAiÉ HIT BA Beh i NIAE | de PS 
Item 时 。 除 这 种 情况 外 ， 你 应 该 设置 CONCURRENT_ITEMS = 1， 然 后 忘 了 





它 。 忆 外 还 需 注 意 的 是 ， 这 是 一 个 虚拟 的 示例 ， 因 为 其 吞吐 量 相当 大 ， 
达到 了 每 秒 大 约 1300 个 Item。 之 所 以 达到 如 此 高 的 符 吐 量 ， 是 因为 延迟 
低 且 稳定 、 几 乎 没有 真实 处 理 ， 以 及 啊 应 的 大 小 很 小 。 这 种 情况 并 不 常 
见 。 














我 们 首先 要 注意 的 事情 是 ， 在 此 之 前 scrape 和 p/line 列 通常 都 是 相 
同 的 数值 ， 而 现在 py/Line 则 是 CoNCURRENT_ITEMS + scrape。 这 是 符合 预 
期 的 ， 因 为 scrape 显 示 的 是 响应 数 ， 而 p/Line 则 是 Item 数 。 


第 二 个 有 意思 的 事情 是 图 10.11 所 示 的 浴 饶 形状 的 性 能 函数 。 由 于 
纵 轴 是 缩放 的 ， 因 此 该 图 表 看 起 来 会 比 实际 情况 更 显著 。 在 左 侧 ， 延 迟 
非常 高 ， 因 为 触及 了 前 一 市 所 提 到 的 内 存 限制 。 而 在 右 侧 ， 并 发 过 多 ， 
en 获得 最 佳 效果 并 不 那么 重要 ， 因 为 向 左右 移动 

常 容易 。 
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图 10.11 ULACONCURRENT_ITEMS HA & AY ſu PR c 


解决 方案 : 检测 本 案例 的 两 种 问题 症状 非常 容易 。 如 果 CPU 使 用 率 
过 高 ， 那 么 最 好 减少 coNCURRENT_ITEMS 的 值 。 如 果 触 及 响应 的 5MB 限 
制 ， 那 么 你 的 管道 无 法 跟 上 下 载 器 的 吞吐 量 ， 增 加 coNCURRENT_ITEMS 的 
值 可 能 能 够 快速 解决 该 问题 。 如 果 修 改 后 没有 什么 区 别 ， 那 么 应 当 遵 照 
前 面 一 节 给 出 的 建议 ， 再 三 询问 自己 系统 的 其 余部 分 是 否 能 够 支持 你 的 
抓 取 程 序 的 吞吐 量 。 








10.5.6 ”案例 #6: 下载 器 未 充分 利用 
症状 你 增加 了 coNcURRENT_REQUESTS 的 值 ， 但 是 下 载 器 并 未 跟 上 ， 
没 能 充分 利用 。 调 度 器 是 空 的 。 


示例 : 首先 ， 我 们 运行 一 个 没有 问题 的 示例 。 我 们 将 切换 到 1 秒 的 
啊 应 时 间 ， 因 为 它 能 够 简化 计算 量 ， 使 下 载 器 的 否 吐 量 T=N/S=N/1 


= CONCURRENT_REQUESTS。 假 设 按照 如 下 命令 运行 。 





$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=500 \ 
-s SPEED T RESPONSE-1 -s CONCURRENT REQUESTS-64 
s/edule d/load scrape p/line done mem 

436 64 0 0 0 0 


real 0m10.99s 


我 们 得 到 了 一 个 充分 利用 的 下 载 嚣 (64 个 请 求 )， 总 时 间 为 11 秒 ， 
与 我 们 以 每 秒 64 个 请 求 的 条 件 处 理 500 个 URE 的 模型 相 匹 配 (S= N/T + 
tstar/stop = 500 / 64 + 3.1 = 10.91 秒 ) 。 

MÆ, WTA EER, ANE AN FMA BU TELA EAS PL ABI SAGA A] 
中 提供 URL， 而 是 使 用 索引 页 通过 
SPEED_START_REQUESTS_STYLE=UseIndex 抽 取 URL。 这 和 我 们 本 书 中 其 他 
章 使 用 的 模式 相同 。 每 个 索引 页 默认 包含 20 个 URL。 


$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=500 \ 
-S SPEED T RESPONSE-1 -s CONCURRENT_REQUESTS=64 \ 

-S SPEED START REQUESTS STYLE-UseIndex 

s/edule d/load scrape p/line done mem 








0 1 0 0 0 0 
0 21 0 0 0 0 
0 21 0 0 20 0 


real 0m32.24s 





很 明显 ， 这 和 前 面 的 案例 不 太一 样 。 不 知 为 何 ， 下 载 器 的 运行 低 于 
其 最 大 能 力 ， 并 且 吞吐 量 为 7 = N / S—terarystop = 500 / (32.2 - 3.1) 2 17 个 
请 求 / 秒 。 

Wie: 快速 浏览 0/load 列 ， 可 以 确信 下 载 器 没 能 充分 利用 。 这 是 因 


为 我 们 没有 足够 的 URL 提 供给 它 。 我 们 的 抓 取 处 理 生 成 URL 的 速度 比 最 
大 消费 能 力 要 慢 。 在 本 例 中 ， 每 个 索引 页 会 生成 20 个 URL 加 上 1 个 前 往 





下 一 索引 页 的 URL。 春 吐 量 无 论 如 何 都 无 法 超过 每 秒 20 个 请 求 ， 因 为 我 
们 无 法 足够 快 地 得 到 源 URL。 该 问题 非常 隐蔽 ， 容 易 被 忽视 。 


解决 方案 ;如果 每 个 索引 页 包含 一 个 以 上 的 下 一 页 的 链接 ， 那 么 可 
以 利用 它们 加 速 UREL 的 生成 。 如 果 可 以 找到 显示 更 多 结果 的 索引 页 面 
《比如 50 个 ) 就 更 好 了 。 我 们 可 以 通过 运行 几 个 模拟 来 观察 其 行为 。 


$ for details in 10 20 30 40; do for nxtlinks in 1 2 3 4; do 

time scrapy crawl speed -s SPEED_TOTAL_ITEMS=500 -s SPEED T RESPONSE-1 \ 
-S CONCURRENT REQUESTS-64 -s SPEED START REQUESTS STYLE-UseIndex \ 

-S SPEED DETAILS PER INDEX PAGE-$details \ 

-S SPEED INDEX POINTAHEAD-$nxtlinks 

done; done 








在 图 10.12 中 ， 可 以 看 到 吞吐 量 是 如 何 根据 这 两 个 参数 变化 的 。 我 
们 观察 到 了 线性 行为 ， 无 论 是 下 一 页 链接 ， 还 是 详情 页 ， 直 到 达到 系统 
上 限 。 可 以 通过 重新 排列 爬 取 的 Rule 进 行 实验 。 如 果 使 用 LIFO GRN) 
顺序 ， 你 可 能 会 看 到 如 果 先 调用 索引 页 请 求 ， 最 后 在 列表 中 抽取 它们 的 
话 ， 能 够 得 到 较 小 的 改善 。 你 也 可 以 党 试 为 访问 索引 页 的 请 求 设 置 高 优 
先 级 。 虽 然 这 两 种 技术 都 没有 显著 的 改善 ， 但 可 以 通过 分 别 设 
置 sPEED_INDEX_RULE_LAST=1 和 SPEED_TNDEX_HIGHER_PRIORITY=1 来 进行 党 
试 。 请 注意 这 两 种 解决 方案 都 会 首先 下 载 整个 索引 页 〈 由 于 优先 级 
高 ) ， 因 此 会 在 调度 器 中 生成 大 量 URL， 增 加 内 存 需 求 。 在 它们 完成 所 
有 索引 之 前 ， 只 会 给 出 少量 的 结果 。 对 于 少量 索引 还 可 以 接受 ， 但 是 对 
于 大 量 索 引 的 情况 ， 束 不 太 可 取 了 。 
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图 10.12 ”以 每 个 索引 页 链接 的 详情 页 及 下 一 页 数量 为 变量 的 吞吐 量 函 数 


一 个 简单 而 又 强大 的 技术 是 索引 分 片 。 这 就 再 要 你 使 用 超过 一 个 初 
始 索 引 URL， 在 它们 之 间 有 一 个 最 大 距离 。 比 如 ， 如 果 索 引 包 含 100 
页 ， 你 可 以 选取 1 和 51 作 为 起 始 索引 。 然 后 ， 不 虫 可 以 以 两 倍速 率 使 用 
下 一 页 链接 有 效 过 历 索 引 。 如 果 你 能 找到 一 种 壳 历 索引 的 方式 ， 比 如 基 
于 产品 的 品牌 或 提供 给 你 的 任何 其 他 属性 ， 并 且 可 以 将 其 按照 大 致 相等 
的 段 进 行 拆 分 的 话 ， 也 可 以 做 到 类 似 的 事情 。 你 可 以 使 用 -s 
SPEED_INDEX_SHARDS 设 置 进 行 模拟 。 

$ for details in 10 20 30 40; do for shards in 1 2 3 4; do 

time scrapy crawl speed -s SPEED_TOTAL_ITEMS=500 -s SPEED T RESPONSE-1 \ 

-S CONCURRENT REQUESTS-64 -s SPEED START REQUESTS STYLE-UseIndex \ 


-S SPEED DETAILS PER INDEX PAGE-$details -s SPEED INDEX SHARDS-$shards 
done; done 


结果 要 比 前 面 的 技术 更 好 ， 如 果 该 方法 适合 你 的 话 ， 我 将 会 推荐 这 
种 方法 ， 因 为 它 更 加 简单 整洁 。 


10.6 ”故障 排除 流程 


总 结 来 说 ，Scrapy 在 设计 时 就 将 下 载 器 作为 瓶 宽 。 从 一 个 低 数 值 的 
CONCURRENT_REQUESTS 开 始 ， 逐 渐 增 加 ， 直 到 触及 下 述 限制 之 一 : 


e CPU 使 用 率 大 于 80% 一 909%6; 
。 源 网 站 延迟 过 度 增长 ; 
。 抓 取 程序 中 响应 达到 了 5MB 的 内 存 限制 。 


同时 ， 执 行 以 下 操作 : 





e 始终 保持 调度 器 队列 (mqs/dqs ) 中 至 少 有 一 定量 的 请 求 ， 避 人 免 下 
Bos LL BLURL DUK: 
e. 水 远 不 要 使 用 任何 阻塞 代 码 或 CPU 密 集 型 代码 。 


图 10.13 总 结 了 诊断 并 修复 Scrapy 性 能 问题 的 过 程 。 
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图 10.13 ”Scrapy 性 能 问题 故障 排除 


10.7 本 章 小 结 


在 本 章 中 ， 我 们 尝试 通过 给 出 儿 个 有 趣 的 案例 ， 来 突出 Scrapy 架 构 
的 优秀 性 能 。 具 体 细节 可 能 会 在 未 来 版 本 的 Scrapy 中 有 所 变更 ， 不 过 本 
章 提 供 的 知识 应 当 会 在 很 长 一 段 时 间 内 保持 有 效 ， 并 且 可 能 会 帮助 你 处 
理 基 于 Twisted、Netty Node.js 或 类 似 框架 的 任何 高 并 发 异步 系统 。 


当 谈 到 Scrapy 的 性 能 问题 时 ， 有 3 个 有 效 的 答案 : 我 不 知道 也 不 介 
意 ; 我 不 知道 但 我 会 找 出 来 ， 我 知道 。 正 如 我 们 在 本 间 中 多 次 论证 的 ， 
天 真 地 回答 “我 们 需要 更 多 的 服务 右 / 内 存 /带宽 "更 有 可 能 与 Scrapy 的 性 
能 无 天。 人 们 需要 真正 理解 瓶 氏 在 什么 地 方 ， 并 且 去 提升 它 。 


在 最 后 一 章 中 ， 我 们 将 进一步 专注 提升 性 能 ， 通 过 在 多 台 服 务 器 上 
分 布 式 部 署 聆 虫 ， 达 到 超越 单机 的 能 








第 11 章 ”使 用 Scrapyd 与 实时 分 析 进 行 分 布 式 疏 
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我 们 已 经 走 了 很 长 的 一 段 路 。 我 们 首先 熟悉 了 两 种 基础 的 网 络 技术 
一 HTML 和 XPath， 然 后 开始 使 用 Scrapy 忠 取 复 杂 网 站 。 接 下 来 ， 我 们 
深入 了 解 了 Scrapy 通 过 其 设置 为 我 们 提供 的 诸多 功能 ， 然 后 在 探讨 其 
Twisted 引 擎 的 内 部 架构 和 异步 功能 时 ， 更 加 深入 地 了 解 了 Scrapy 和 
Python。 在 上 一 章 中 ， 我 们 研究 了 Scrapy 的 性 能 ， 并 学 习 了 如 何 解决 复 
杂 和 经 常 违背 直觉 的 性 能 问题 。 


在 最 后 的 这 一 章 中 ， 我 将 为 你 指出 如 何 进 一 步 将 该 技术 扩展 到 多 台 
服务 器 的 一 些 方 铝 。 我 们 很 快 就 会 发 现 仆 取 工 作 经 常 是 一 种 “高 度 并 
发 ”的 问题 ， 因 此 可 以 轻松 地 实现 横 同 扩展 ， 利 用 多 台 服 务 器 的 资源 。 
为 了 实现 该 目标 ， 我 们 可 以 像 平 时 那样 使 用 一 个 Scrapy 中 间 件 ， 不 过 也 
可 以 使 用 Scrapyd， 这 是 一 个 专门 用 于 管理 运行 在 远程 服务 器 上 的 Scrapy 
d 这 将 允许 我 们 在 自己 的 服务 器 上 ， 拥 有 与 第 6 章 中 介绍 的 
日 兼容 的 功能 。 


最 后 ， 我 们 将 使 用 基于 Apache Spark 的 简单 系统 ， 对 抽取 的 数据 执 
行 实时 分 析 。Apache Spark 古 一 个 非常 流行 的 大 数据 处 理 框 染 。 我 们 将 
使 用 Spark Streaming API 展 示 在 数据 收集 增多 时 越 来 越 准 确 的 结果 。 对 
于 我 来 说 ， 最 终 的 这 个 应 用 展示 了 Python 作 为 一 种 语言 的 能 力 和 成 就 
度 ， 因 为 我 们 只 珊 这 些 ， 惑 能 编写 出 富有 表现 力 、 简 涪 并 且 高 效 的 代 
码 ， 实 现 从 数据 抽取 到 分 析 的 全 栈 工作 。 

















11.1 房产 的 标题 是 如 何 影响 价格 的 


我 们 尝试 解决 的 示例 问题 是 找 出 标题 是 如 何 与 房产 价格 相关 的 。 我 
们 会 认为 诸如 “Jacuzzi> 或 “pool” 这 样 的 词汇 与 高 价位 相关 ， 而 类 
似 “discount”* 这 样 的 词汇 与 低 价 位 相关 。 结 合 位 置信 息 ， 就 可 能 根据 该 
位 置信 息 和 描述 ， 为 我 们 提供 房产 是 否 特价 的 实时 报警 。 


我 们 所 需要 计算 的 是 给 定 词汇 在 是 否 存 在 时 的 价格 差 : 














Shi ftierm = ( Priceproperties—with—term * Priceproperties—without—term) / Price 


比如 ， 假 设 平均 租金 为 $1000， 我 们 观察 到 包含 词汇 jacuzzi 的 房产 
平均 价格 是 $1300， 而 不 包含 该 词汇 的 房产 平均 价格 是 $995， 那 么 
jacuzzi 的 价格 差 为 shiftiscwzzi = (1300-995) / 1000 = 30.5%。 如 果 存 在 一 个 
售 jacuzzi 关 键 词 的 房产 ， 其 价格 只 比 平均 价格 高 出 5%， 那 么 我 会 非常 
想 要 了 解 它 。 


请 注意 ， 访 指标 并 非 微不足道 ， 因 为 关键 词 的 效果 将 会 被 聚合 。 例 
如 ， 既 包含 jacuzzi 又 包含 discount 的 标题 很 可 能 显示 出 这 些 关 键 词 的 组 
合 效 果 。 我 们 收集 并 分 析 的 数据 越 多 ， 预 估 的 准确 度 越 高 。 下 面 我 们 将 
回 到 该 问题 上 来 ， 讲 解 如 何在 一 分 钟 内 实现 一 个 流 媒体 解决 方案 。 














11.2 Scrapyd 


现在 ， 我 们 将 要 开始 介绍 Scrapyd。Scrapyd 这 个 应 用 允许 我 们 在 服 
务 器 上 部 团 息 虫 ， 并 使 用 它们 制定 扑 取 的 计划 任务 。 让 我 们 来 感受 一 下 
使 用 它 是 多 么 简单 吧 。 我 们 在 开发 机 中 已 经 预 安装 了 该 应 用 ， 所 以 可 以 
立即 使 用 第 3 音 中 的 代码 对 其 进行 测试 。 我 们 在 之 前 使 用 了 几乎 完全 相 
同 的 过 程 ， 在 这 里 只 有 一 个 小 的 变化 。 


首先 ， 我 们 访问 http://Localhost:68090/， 来 看 一 下 Scrapyd 的 Web 
界面 ， 如 图 11.1 所 示 。 


IT CNN ain es 
— — 















EM NN 
"pris ay GOD aD Oa 92 D 


ei 
pets ey iia SD 0 th 
i| Finished 











Hon) Pane hn Cte ye Cte eng 
Shih a 


— | e wenn 


Example using cur 


E http://Localhost:6800/schedule, json «d projectedefault «d spiders 


4 (^ peahost 880g 


Directory listing for /logs/ 


oe m Directory listing for Aogs/properties/easy/ 


properties 
venpyder OB [txttin Filename Size Content type Content encoding 
sad 10K ei eli (leu phan] 
misi pua iles Wc 


MemnsbPeha€ussaspMesuW"suesanu"nsssocnss»asposeseusassensedsoveswsenevevesececvesnevel 


CREA LISA LAE AL! 








图 11.1 Scrapyd 的 Web 界 面 





可 以 看 出 ，Scrapyd 对 于 Jobs、Items、Logs 和 Documentation 都 有 
不 同 的 区 域 。 此 外 ， 它 还 提供 了 一 些 指引 ， 告 知 我 们 如 何 使 用 其 API 定 
制 计 划 任 务 。 


为 了 完成 该 测试 ， 我 们 必须 先 在 Scrapyd 服 务 妖 上 部 普 怜 虫 。 第 一 
步 是 按照 如 下 操作 修改 scrapy.cfg 配 置 文件 。 


$ pwd 
/root/book/ch03/properties 

$ cat scrapy.cfg 

[settings] 

default - properties.settings 
[deploy] 


url = http://localhost :6800/ 
project = properties 


基本 上 ， 我 们 所 有 需要 做 的 就 是 去 除 url 一 行 的 注释 。 默 认 的 设置 
己 经 很 合适 了 。 现 在 ， 要 想 部 普 息 虫 ， 需 要 使 用 scrapyd-client 提 供 的 
scrapyd-deploy 工 具 。scrapyd-client 曾 经 是 Scrapy 的 一 部 分 ， 不 过 现 
在 已 经 独立 为 一 个 单独 的 模块 ， 该 模块 可 以 使 用 pip install scrapyd- 
client 安 装 〈 已 经 在 开发 机 中 安装 好 了 该 模块 ) 。 


$ scrapyd-deploy 

Packing version 1450044699 

Deploying to project "properties" in http://localhost :6800/addversion. 
json 

Server response (200): 

{"status": "ok", "project": "properties", "version": "1450044699", 
"spiders": 3, "node_name": "dev"} 


当 部 署 成 功 后 ， 可 以 在 Scrapyd 的 Web 界 面 主 页 的 Available projects 
区 域 看 到 该 项 目 。 现 在 ， 可 以 按照 提示 在 该 页 面 提交 一 个 任务 。 
$ curl http://localhost:6800/schedule.json -d project=properties -d 


spider=easy 
{"status": "ok", "jobid": " d4df...", "node name": "dev"} 





如 果 回 到 Web 界 面 的 Jobs 区 域 ， 可 以 看 到 任务 正在 运行 。 稍 后 可 以 
使 用 schedule.json 返 回 的 jobid， 通 过 cancel.json 取 消 该 任务 。 


时 ， 
lap 


$ curl http://localhost:6800/cancel.json -d project-properties -d 
job=d4df... 
("status": "ok", "prevstate": "running", "node name": "dev"} 


请 一 定 记 住 执行 取消 操作 ， 人 否则 你 会 当 费 一 段 时 间 的 计算 机 资源 。 
非常 好 ! 当 访 问 Logs 区 域 时 ， 可 以 看 到 日 志 ， 而 当 访问 Items 区 域 
可 以 看 到 了 刚才 故 取 的 Ttem。 这 些 都 会 在 一 定 周期 之 后 清空 以 释放 空 
因此 在 几 次 息 取 操作 后 这 些 内 容 可 能 就 不 再 可 用 。 


如 果 有 合理 的 理由 ， 比 如 冲突 ， 那 么 我 们 可 以 使 用 http_port 修 改 


端口 ， 这 是 Scrapyd 提 供 的 诸多 设置 之 一 。 通 过 访问 http://scrapyd 
readthedocs.org/ 来 了 解 Scrapyd 的 文档 是 非常 值得 的 。 在 本 章 中 ， 我 们 


BE 
需要 


话 ， 





区 改 的 一 个 重要 设置 是 max_proc。 如 果 将 该 设置 保留 为 默认 值 0 的 
Scrapyd 将 在 Scrapy 任 务 运 行 时 允许 4 倍 于 CPU 数量 的 并 发 。 由 于 我 


们 将 运行 多 个 Scrapyd 服 务 器 ， 并 且 大 部 分 可 能 是 在 虚拟 机 当中 的 ， 
此 我 们 将 会 设置 该 值 为 4， 即 允许 至 多 4 个 任务 并 发 运行 。 这 与 本 章 的 需 
求 有 关 ， 而 在 实际 部 着 当中 ， 一 般 情 况 下 使 用 默认 值 束 能 够 展 好 运行 。 








11.3 分布 式 系统 概述 


对 我 来 说 ， 设 计 访 系统 是 一 个 非常 棒 的 经 历 〈 见 图 11.2) 。 起 初 ， 
我 增加 了 功能 和 复杂 性 ， 以 至 于 不 得 不 要 求 读 者 拥有 高 端 便 件 才 能 运行 
这 些 示 例 。 这 束 造 成 之 后 的 一 个 紧迫 需求 成 为 简化 无 论 是 为 了 保持 
硬件 需求 更 加 实际 ， 还 是 确保 本 章 能 够 保持 专注 在 Scrapy 上 。 




















图 11.2 ”系统 概述 


最 后 ， 本 章 将 要 使 用 的 系统 包含 我 们 的 开发 机 以 及 几 个 其 他 服务 
器 。 我 们 将 使 用 开发 机 执行 索引 页 面 的 垂直 抓 取 ， 并 从 中 批量 抽取 
URL。 之 后 ， 将 以 轮 询 的 方式 将 这 些 URL 分 发 到 Scrapyd 节 点 当中 执行 
疏 取 。 最 后 ， 包 含 Ttem 的 .jl 文件 将 会 通过 FTP 传 输 到 运行 Apache Spark 
的 服务 器 中 。 什 么 ?FTP? 是 的 ， 我 选择 FTP 和 本 地 文件 系统 ， 而 不 是 
HDFS#k Apache Kafka 的 原因 是 因为 其 内 存 需求 很 低 ， 并 且 Scrapy 后 端的 
FEED_URI 能 够 直接 支持 。 请 注意 ， 通 过 简单 修改 Scrapyd 和 Spark 的 配 
置 ， 我 们 可 以 使 用 Amazon S3 来 存储 这 些 文件 ， 享 受 其 带 来 的 了 元 余 性 、 
不 过 ， 这 里 不 会 有 更 多 有 意思 的 相关 话题 来 学 习 任 
May SEI. 



































使 用 FTP 的 一 个 风险 是 Spark 可 能 会 在 其 上 传 过 程 中 看 到 不 完整 的 文 
件 。 为 了 避免 发 生 该 问题 ， 我 们 将 使 用 Pure-FTPd 以 及 一 个 回调 脚本 ， 在 上 传 
完成 后 立即 将 上 传 的 文件 移动 到 /root/items 目 录 中 。 

















每 隔 几 秒 ，Spark 将 会 检测 该 目录 (/root/items) ， 读 取 任 何 新 文 
件 ， 形 成 小 批 次 ， 并 执行 分 析 。 我 们 使 用 Apache ”Spark 是 因为 它 支 持 
Python 作为 其 编程 语言 ， 并 且 还 文 持 流 。 到 目前 为 止 ， 我 们 可 能 已 经 使 
用 了 一 些 生命 周期 相对 较 短 的 讨 取 工作 ， 不 过 现实 世界 中 许多 爬 取 工作 
永远 都 不 会 结束 。 疏 取 工 作 24/7 不 间断 运行 ， 并 提供 用 于 分 析 的 数据 
正 因 如 此 ， 我 们 将 使 用 Apache Spark 进 
行 展 示 。 











使 用 Apache ”Spark 和 Scrapy 并 没有 什么 特殊 之 处 。 你 也 可 以 选择 使 用 
Map-Reduce、Apache Storm 或 任何 其 他 适合 你 需求 的 框架 。 


在 本 章 中 ， 我 们 并 不 会 将 Item 插 入 到 诸如 ElasticSearch 或 MySQL 等 
数据 库 当 中 。 第 9 章 中 介绍 的 技术 在 这 里 同样 适用 ， 不 过 其 性 能 会 很 糟 
料 。 当 你 每 秒 钟 执行 数 干 次 写 入 操作 时 ， 只 有 极 少数 的 数据 库 系 统 能 够 
运行 恨 好 ， 但 这 正 是 我 们 的 管道 将 会 做 的 事情 。 如 果 我 们 想 要 回 数 据 库 
中 插入 数据 ， 则 需要 遵循 与 使 用 Spark 相 似 的 流程 ， 即 批量 导入 生成 的 
和 

















最 后 需要 注意 的 是 ， 该 系统 并 没有 恨 好 的 弹性 。 我 们 假设 各 节点 都 
是 健康 的 ， 并 且 任 何 失败 都 不 会 产生 严重 的 业务 影响 。Spark 拥 有 弹性 
配置 ， 能 够 提供 高 可 用 性 。 而 除了 Scrapyd 的 持久 化 队列 外 ，Scrapy 并 没 
有 提供 任何 相关 的 内 建功 能 ， 这 就 意味 着 失败 的 任务 需要 在 节点 恢复 后 
才能 重新 启动 。 这 种 方式 对 于 你 的 需求 来 说 ， 也 许 适 合 ， 也 许 不 适合 。 
如 果 对 你 而 言 弹性 十 分 重要 ， 那 么 你 需要 搭建 监控 和 分 布 式 队 列 方案 
(如 基于 Kafka 或 RabbitMQ ) , KEJA AW RECTE. 
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Jg f YUERGRIRER Be te EA WOT ScrapyMe Het Tick, FFA m 
开发 慌 虫 中 间 件 。 更 具体 地 说 ， 我 们 必须 执行 如 下 操作 : 





e 调整 索引 页 念 取 ， 以 最 大 速率 执行 ; 
e 编写 中 间 件 ， 分 批发 送 URL 到 Scrapyd 服 务 器 ; 
e 使 用 相同 中 间 件 ， 允 许 在 启动 时 使 用 批量 URL。 


我 们 将 尝试 使 用 尽 可 能 小 的 改动 来 实现 这 些 变 化 。 理 想 情 况 下 ， 整 
个 操作 应 该 清晰 、 易 理解 并 且 对 其 依赖 的 压 虫 代码 透明 。 这 应 该 是 一 个 
基础 架构 层级 的 需求 ， 如 果 想 对 爬虫 《可 能 数 百 个 ) 进行 修改 来 实现 它 
则 是 一 个 坏 主意 。 


11.4.1 RIRIA ER 


我 们 的 第 一 步 是 优化 索引 页 爬 取 ， 使 其 尽 可 能 更 快 。 在 开始 之 前 ， 
先 来 设置 一 些 期 望 。 假 设 爬 虫 朴 取 并 发 量 是 16， 并 且 我 们 测量 得 到 其 与 
源 网 站 服务 器 的 延迟 大 约 为 0.25 秒 。 此 时 得 到 的 吞吐 量 最 多 为 16 / 0.25 = 
64 页 / 秒 。 索 引 页 数量 为 50000 个 详情 页 / 每 个 索引 页 30 个 详情 页 链接 = 
jer ui 因此 ， 我 们 期 望 索 引 页 下 载 花 费 的 时 间 大 约 为 1667 / 64 = 
26 秒 多 一 点 。 


让 我 们 以 第 3 章 中 名 为 easy 的 爬虫 开始 。 先 把 执行 垂直 抓 取 的 Rule 
注释 挥 (callback='parse_item' 的 那个 ) ， 因 为 现在 只 需要 爬 取 索 引 
页 


No 


























你 可 以 在 GitHub 中 获取 到 本 书 的 全 部 代码 。 下 载 该 代码 ， 可 以 访 


问 : git clone https://github.com/scalingexcellence/scrapybook。 


本 章 中 的 完整 代码 位 于 ch11 目 录 当 中 。 





如 果 我 们 在 进行 任何 优化 之 前 对 scrapy crawl RIERA R m hyt 
况 进 行 计 时 ， 可 以 得 到 如 下 结果 。 

$ 1s 

properties scrapy.cfg 

$ pwd 


/root/book/ch11/properties 
$ time scrapy crawl easy -s CLOSESPIDER PAGECOUNT-10 


DEBUG: Crawled (200) «GET ...index 00000.html» (referer: None) 
DEBUG: Crawled (200) «GET ...index 00001.html» (referer: ...index 00000. 
html) 


real 0m4.099s 
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1,700 个 页 面 。 通 过 查看 日 志 ， 我 们 发 现 每 个 页 面 都 来 自 于 前 一 个 页 面 
的 下 一 页 链接 ， 也 就 是 说 在 任意 时 刻 都 只 有 至 多 一 个 页 面 正在 执行 疏 
取 。 我 们 的 有 效 并 发 为 1。 我 们 希望 并 行 处 理 ， 得 到 想 要 的 并 发 数量 
《16 个 并 发 请 求 ) 。 我 们 将 对 索引 分 片 ， 并 人 允许 一 些 额外 的 分 片 ， 以 确 
保 爬 虫 中 的 URL 不 会 不 足 。 我 们 将 会 把 索引 分 为 20 个 段 。 实 际 上 ， 任 何 
超过 16 的 数值 都 能 够 增加 速度 ， 不 过 在 超过 20 之 后 所 得 到 的 回报 呈 递 减 
趋势 。 我 们 将 通过 如 下 表达 式 计 算 每 个 分 片 的 起 始 索 引 ID。 


>>> map(lambda x: 1667 * x / 20, range(20) ) 
[0, 83, 166, 250, 333, 416, 500, ... 1166, 1250, 1333, 1416, 1500, 1583] 





因此 ， 我 们 使 用 如 下 代码 设置 start_urls。 


start urls = ['http://web:9312/properties/index_%05d.html' % id 
for id in map(lambda x: 1667 * x / 20, range(20))] 





这 可 能 和 你 的 索引 有 很 大 的 不 同 ， 因 此 我 们 没 必要 在 此 处 实现 得 更 
漂亮 。 如 果 还 设 定 了 并 发 设置 
CCONCURRENT_REQUESTS、 CONCURRENT_REQUESTS_PER_DOMAIN) 7316, Ji 
么 当 运 行 肘 虫 时 ， 将 会 得 到 如 下 结果 。 


$ time scrapy crawl easy -s CONCURRENT_REQUESTS=16 -s CONCURRENT_ 
REQUESTS_PER_DOMAIN=16 


real 0m32.344s 


该 结果 已 经 与 期 望 值 非常 接近 了 。 我 们 的 下 载 速度 为 1667 个 页 面 / 
32 秒 = 52 个 索引 页 / 秒 ， 这 就 意味 着 每 秒 可 以 生成 52x30 = 1560 个 详情 页 
URL。 现 在 ， 可 以 将 垂直 抓 取 的 Rule 的 注释 取消 掉 ， 保 存 文件 作为 新 爬 
虫 分 发 。 我 们 不 需要 对 疏 虫 代码 进行 更 多 修改 ， 这 显示 出 我 们 即将 开发 
的 中 间 件 的 强大 以 及 非 侵 入 性 。 如 果 只 使 用 开发 服务 器 运行 scrapy 
crawl1， 假 设 处 理 详情 页 的 速度 和 索引 页 处 理 时 一 样 快 ， 那 么 它 将 花费 
不 少 于 50000 / 52 = 16 分 钟 时 间 完 成 疏 取 。 


本 节 有 两 个 关键 内 容 。 在 学 习 完 第 10 章 之 后 ， 我 们 已 经 可 以 实现 真 
正 的 工程 。 我 们 能 够 精确 计算 出 系统 期 望 得 到 的 性 能 ， 并 且 确 保 在 达到 
该 性 能 之 前 不 会 停止 〈 在 合理 范围 内 ) 。 第 二 个 要 记 住 的 重要 事情 是 ， 
由 于 索引 页 爬 取 提供 了 详情 页 ， 疏 取 的 总 吞吐 量 将 会 是 其 吞吐 量 的 最 小 
值 。 如 果 我 们 生成 的 URL 比 Scrapyd 能 够 消费 得 更 快 ， 那 么 URL 将 会 堆 
积 在 其 队列 当中 。 反 过 来 ， 如 果 生 成 的 URL 太 慢 ，Scrapyd 将 会 拥有 过 
剩 的 无 法 利用 的 能 


11.4.2 7 FR ALURL 


现在 ， 我 们 准备 开发 处 理 详情 页 URL 的 基础 架构 ， 目 的 是 对 其 进行 
垂直 疏 取 、 分 批 并 分 发 到 多 台 Scrapyd 节 点 中 ， 而 不 是 在 本 地 疏 取 。 


如 果 碍 看 第 8 章 中 的 Scrapy 架 构 ， 就 可 以 很 容易 地 得 出 结论 ， 这 是 
疏 虫 中 间 件 的 任务 ， 因 为 它 实 现 了 process_spider_output()， 在 到 达 下 
载 絮 之前， 在 此 处 处 理 请 求 ， 并 能 够 中 止 它 们 。 我 们 在 实现 中 限制 只 支 





























持 基 于 crawlspider 的 爬虫 ， 另 外 还 只 文 持 简单 的 GET 请 求 。 如 采 需 要 
更 加 复杂 ， 比 如 POST 或 有 权限 验证 的 请 求 ， 那 么 需要 开发 更 复杂 的 功 
能 来 扩展 参数 、 请 求 凑 ， 其 到 可 能 在 每 次 批量 运行 后 重新 登录 。 


在 开始 之 前 ， 先 来 快速 浏览 一 下 Scrapy 的 GitHub。 我 们 将 回 
顾 SPIDER_MIDDLEWARES_BASE 设 置 ， 以 查看 Scrapy 提 供 的 参考 实现 ， 以 便 
尽 最 大 可 能 复 用 它 。Scrapy 1.0 包 含 如 下 疏 虫 中 间 
件 : HttpErrorMiddleware、 OffsiteMiddleware. RefererMiddleware. Ur 
以 及 DepthMiddleware。 在 快速 了 解 它们 的 实现 之 后 ， 我 们 发 现 
offsiteMiddleware (只 有 60 行 代码 ) 与 想 要 实现 的 功能 很 相似 。 它 根据 
疏 虫 的 allowed_domains 属 性 ， 把 UREL 限 制 在 某 些 特定 域名 中 。 我 们 可 以 
使 用 相似 的 模式 吗 ? 和 offsiteMiddleware 实 现 中 丢弃 URL 不 同 ， 我 们 将 
对 这 些 URL 进 行 分 批 并 发 送 到 Scrapyd 节 点 中 。 事 实证 明 这 是 可 以 的 。 
下 面 是 实现 的 部 分 代码 。 
def _ init (self, crawler): 
settings = crawler.settings 
self. target = settings.getint('DISTRIBUTED TARGET RULE', -1) 
self. seen - set() 


self. urls - [] 
self. batch size - settings.getint('DISTRIBUTED BATCH SIZE', 1000) 








def process spider output(self, response, result, spider): 
for x in result: 
if not isinstance(x, Request): 
yield x 
else: 
rule - x.meta.get('rule') 


if rule -- self. target: 

self. add to batch(spider, x) 
else: 

yield x 


def add to batch(self, spider, request): 
url - request.url 
if not url in self. seen: 
self. seen.add(url) 
self. urls.append(url) 
if len(self. urls) »- self. batch size: 
self. flush urls(spider) 


process_spider_output() 既 处 理 Ttem 也 处 理 Request。 我 们 只 想 处 
理 Request， 因 此 我 们 对 其 他 所 有 内 容 执 行 yield 操 作 。 如 果 碍 
看 crawlspider 的 源 代码 ， LATE Bl) Request / Response HY #i|Rule 
的 方式 是 通过 其 meta 字 典 的 名 为 "rule' 的 整 型 字段 。 我 们 检查 该 数值 ， 


如 果 它 指向 目标 的 Rule (DISTRIBUTED_TARGET_RULE 设 置 ) ， 则 会 调 

用 _add_to_batch() 添 加 URL 到 当前 批 次 。 然 后 ， 丢 弃 该 Request。 对 其 
他 所 有 Request 执 行 yield 操 作 ， 比 如 下 一 页 链接 、 无 变化 的 链 

接 。_add_to_batch() 方 法 实现 了 一 个 去 重 机 制 。 不 过 很 遗憾 的 是 ， 由 于 
前 一 节 中 描述 的 分 片 流程 ， 我 们 可 能 对 少数 URL 抽 取 两 次 。 我 们 使 

用 _seen 和 集合 检测 并 丢弃 重复 值 。 然 后 ， 把 这 些 URL 添 加 到 _urls 列 表 
中 ， 如 果 其 大 小 超过 _batch_size (DISTRIBUTED_BATCH_SIZE 设 置 ) ， 就 
会 触发 调用 _flush_urls()。 该 方法 提供 了 如 下 的 关键 功能 。 


def _ init (self, crawler): 


self. targets = settings.get("DISTRIBUTED TARGET HOSTS") 
self. batch - 1 
self. project - settings.get('BOT NAME') 

self. feed uri - settings.get('DISTRIBUTED TARGET FEED URL', None) 
self. scrapyd submits to wait - [] 


def flush urls(self, spider): 
if not self. urls: 
return 


target = self. targets[(self. batch-1) % len(self. targets)] 


data - [ 
("project", self. project), 
("spider", spider.name), 
("setting", "FEED URI-*s" % self. feed uri), 
("batch", str(self. batch)), 


] 


json urls - json.dumps(self. urls) 
data.append(("setting", "DISTRIBUTED START URLS-*s" % json urls)) 


d = treq.post("http://%s/schedule.json" % target, 
data=data, timeout=5, persistent=False) 


self._scrapyd_submits_to_wait.append(d) 


self._urls = [] 
self._batch += 1 


首先 ， 它 使 用 一 个 批 次 计数 器 (batch) 来 决定 要 将 该 批 次 发 送 到 
哪个 Scrapyd 服 务 器 中 。 我 们 在 _targets (DISTRIBUTED_TARGET_HOSTS 设 
A) 中 保持 更 新 可 用 的 服务 器 。 然 后 ， 构 造 POST 请 求 到 Scrapyd 的 
schedule.json。 这 比 之 前 通过 cur1 执 行 的 更 加 高 级 ， 因 为 它 传递 了 一 些 
精心 挑选 的 参数 。 基 于 这 些 参数 ，Scrapyd 可 以 有 效 地 计划 运行 任务 ， 
类 似 如 下 所 示 。 


scrapy crawl distr \ 
-S DISTRIBUTED START URLS-'[".../property 000000.html", ... ]' \ 





-s FEED_URI='ftp://anonymous@spark/%(batch)s_%(name)s_%(time)s.jl' \ 
-a batch=1 


eS OA AME a 4b, FRAT ME a HE —/7SFEED_URI E- 
我 们 可 以 从 DISTRIBUTED_ TARGET _ FEED_URL 设 置 中 获取 该 值 。 


由 于 Scrapy 文 持 FTP， 我 们 可 以 让 Scrapyd 通 过 匿名 FTP 的 方式 将 的 
取 到 的 Item 文件 上 传 到 Spark 服 务 器 中 。 格 式 包 含 朴 虫 名 〈%(name)s) 和 
NTA) (%(time)s) 。 如 果 只 使 用 这 些 ， 那 么 当 两 个 文件 的 创建 时 间 相 同 
时 ， 最 终 会 产生 冲突 。 为 了 避免 意外 履 盖 ， 我 们 还 添加 了 一 个 % 
(batch)s 参 数 。 默 认 情 况 下 ，Scrapy 不 知道 任何 关于 批 次 的 事情 ， 因 此 
我 们 需要 找到 一 种 方式 来 设置 该 值 。Scrapyd 中 schedule.json 这 个 API 的 
一 个 有 趣 特 性 是 ， 如 果 参 数 不 是 设置 或 少数 几 个 已 知 参数 的 话 ， 它 将 会 
被 作为 参数 传 给 爬虫 。 默 认 情 况 下 ， 怜 虫 参数 将 会 成 为 爬虫 属性 ， 未 知 
的 FEED_URI 参 数 将 会 去 查阅 爬虫 的 属性 。 因 此 ， 通 过 传递 batch 参 数 给 
schedule.json， 我 们 可 以 在 FEED_URI 中 使 用 它 以 避免 冲突 。 


最 后 一 步 是 使 用 编码 为 JSON 的 该 批 次 详情 页 URL 编 译 
为 DISTRIBUTED ”START_URLS 设 置 。 除 了 熟悉 和 简单 之 外 ， 使 用 该 格式 并 
没有 什么 特殊 的 理由 。 任 何 文本 格式 都 可 以 做 到 。 





通过 命令 行 向 Scrapy 传 输 大 量 数据 丝 宫 也 不 优雅 。 在 一 些 时 候 ， 你 想 要 
HH 


将 参数 存储 到 数据 存储 中 《〈 比 如 Redis) ， 并 且 只 向 Scrapy 传 输 ID 。 如 果 想 要 
这 样 做 ， 则 需要 在 _flush_urls() 和 process_start_requests() 中 做 一 些小 的 























我 们 使 用 treq.post() 处 理 POST 请 求 。Scrapyd 对 持久 化 连接 处 理 得 
不 是 很 好 ， 因 此 使 用 persistent=False 禁 用 该 功能 。 为 了 安全 起 见 ， 我 
们 还 设置 了 一 个 5 秒 的 超时 时 间 。 有 趣 的 是 ， 我 们 为 该 请 求 





在 _scrapyd_submits_to_wait 列 表 中 存储 了 延迟 图 数 ， 后 续 内 容 中 将 会 
进行 讲解 。 关 闭 该 函数 时 ， 我 们 将 重 置 _urls 列 表 ， 并 增加 当前 的 
_batch 值 。 


出 人 意料 的 是 ， 我 们 在 关闭 操作 处 理 器 中 发 现 了 如 下 所 示 的 诸多 功 





ap 
on 


def | init (self, crawler): 


crawler.signals.connect(self. closed, signal-signals.spider 
closed) 


Qdefer.inlineCallbacks 

def _closed(self, spider, reason, signal, sender): 
# Submit any remaining URLs 
self. flush urls(spider) 


yield defer.DeferredList(self. scrapyd submits to wait) 





_close( ) 将 会 在 我 们 按 下 Ctrl + CHERERE H. JG VE DR 
情况 ， 我 们 都 不 希望 丢失 属于 最 后 一 个 批 次 的 任何 URL， 因 为 它们 还 没 
有 被 发 送出 去 。 这 就 是 为 什么 我 们 在 _close() 方 法 中 首先 要 做 的 是 调 
用 _flush_urls(spider) 清 空 最 后 的 批 次 的 原因 。 第 二 个 问题 是 ， 作 为 非 
阻塞 代码 ， 任 何 treq.post() 在 停止 朴 取 时 都 可 能 完成 或 没有 完成 。 为 
了 避免 丢失 任何 批 次 ， 我 们 将 使 用 之 前 提 及 的 scrapyd_submits_to_wait 
列表 ， 来 包含 所 有 的 treq.post() 的 延迟 函数 。 我 们 使 
用 defer .DeferredList() 进 行 等 待 ， 直 到 全 部 完成 。 由 于 _close( ) 使 用 
J Gdefer.inlineCallbacks, 我 们 只 需 对 其 执行 yie1ld 操 作 ， 并 在 所 有 请 
求 完成 之 后 进行 恢复 即 可 。 


总 结 来 说 ， 在 DISTRIBUTED_START_URLS 设 置 中 包含 批量 URE 的 任务 
将 被 送 往 Scrapyd 服 务 右 ， 并 在 这 些 Scrapyd 服 务 咒 中 运行 相同 的 爬虫 。 
很 明显 ， 我 们 需要 某 种 方式 以 使 用 该 设置 初始 化 start_ur1ls。 


11.43 ”从 设置 中 获取 初始 UREL 
当 你 注意 到 疏 虫 中 间 件 提供 的 用 于 处 理 爬 虫 给 我 们 的 


start_redquests 的 process_start_requests() 方 法 时 ， 束 会 感受 到 爬虫 
中 间 件 是 怎样 满足 我 们 的 需求 的 。 我 们 检测 DISTRIBUTED_START_URLS 设 
置 是 否 已 被 设 定 ， 如 果 是 的 话 ， 则 解码 JSON 并 使 用 其 中 的 URL 对 相关 
的 Request 进 行 yield 操 作 。 对 于 这 些 请 求 ， 我 们 设置 crawlspider 的 








_response_download( ) 方 法 作为 回调 ， 并 设置 netaf 'rule'] 参 数 ， 以 便 
其 Response 能 够 被 适当 的 Rule 处 理 。 坦 白 来 说 ， 我 们 查阅 了 Scrapy 的 源 
人 代码， 发 现 crawlspider 创 建 Request 的 方式 使 用 了 相同 的 方法 。 在 本 例 
中 ， 代 码 如 下 所 示 。 


def — init (self, crawler): 





self. start urls - settings.get('DISTRIBUTED START URLS', None) 
self.is worker - self. start urls is not None 


def process start requests(self, start requests, spider): 
if not self.is worker: 
for x in start requests: 
yield x 
else: 
for url in json.loads(self. start urls): 
yield Request(url, spider. response downloaded, 
meta={'rule': self. target]) 


— 的 中 间 件 已 经 准备 好 了 。 可 以 在 settings,.py 中 局 用 它 并 进行 
Tx o 


SPIDER MIDDLEWARES = { 
'properties.middlewares.Distributed': 100, 


} 
DISTRIBUTED_TARGET_RULE = 1 
DISTRIBUTED_BATCH_SIZE = 2000 
DISTRIBUTED_TARGET_FEED_URL = ("ftp://anonymous@spark/" 
"%(batch)s_%(name)s_%(time)s.jl") 
DISTRIBUTED_TARGET_HOSTS = [ 
"scrapyd1:6800", 
"scrapyd2:6800", 
"scrapyd3: 6800", 
] 


一 些 人 可 能 会 认为 DISTRIBUTED_TARGET_RULE 不 应 该 作为 设置 ， 因 为 
不 同 爬 虫 之 间 可 能 是 不 一 样 的 。 你 可 以 将 其 认为 是 默认 值 ， 并 且 可 以 在 
疏 虫 中 使 用 custom_settings 属 性 进行 履 写 ， 比 如 : 


custom_settings = { 
'DISTRIBUTED TARGET RULE': 3 
} 


不 过 在 我 们 的 例子 中 并 不 需要 这 么 做 。 我 们 可 以 做 一 个 测试 运行 ， 
息 取 作为 设置 提供 的 单个 页 面 。 


$ scrapy crawl distr -s \ 


DISTRIBUTED_START_URLS=' ["http: //web: 9312/properties/property_000000.htm1"]' 
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scrapy crawl distr -s \ 


DISTRIBUTED START URLS-'["http://web:9312/properties/property 000000. 
htm1"]' \ 


-S FEED_URI='ftp://anonymous@spark/%(batch)s_ %(name)s_ %(time)s.jl' -a batch=12 


如 果 你 通过 ssh 登 录 到 Spark 服 务 器 中 《〈 稍 后 会 有 更 多 介绍 ) ， 将 会 
看 到 一 个 文件 位 于 /root/items 目 录 中 ， 比如 12_distr_date_time.jl。 


上 述 是 使 用 Scrapyd 实 现 分 布 式 爬 取 的 中 间 件 的 示例 实现 。 你 可 以 
使 用 它 作 为 起 点 ， 实 现 满足 目 己 特殊 需求 的 版 本 。 你 可 能 需要 适 配 的 事 
情 包 括 如 下 内 容 。 





。 文 持 的 爬虫 类 型 。 比 如 ， 一 个 不 局 限于 crawlspider 的 蔡 代 方 案 可 
能 需要 你 的 爬虫 通过 适当 的 meta 以 及 采用 回调 命名 约定 的 方式 来 标 
记分 布 式 请 求 。 

e 问 Scrapyd 传 输 URE 的 方式 。 你 可 能 希望 使 用 特定 域名 信息 来 减少 
传输 的 信息 量 。 比 如 ， 在 本 例 中 ， 我 们 只 传输 了 房产 的 ID。 

e. 你 可 以 使 用 更 优雅 的 分 布 式 队列 解决 方案 ， 使 仆 虫 能 够 从 失败 中 恢 
复 ， 并 允许 Scrapyd 将 更 多 的 URL 提 交 到 批 处 理 。 

e 你 可 以 动态 填充 目标 服务 器 列表 ， 以 支持 按 需 扩展 。 


11.4.4 ”在 Scrapyd 服 务 器 中 部 署 项 目 























为 了 能 够 在 我 们 的 3 台 Scrapyd 服 务 器 中 部 普 息 虫 ， 我 们 需要 将 这 3 
台 服 务 器 添加 到 scrapy .cfg 文 件 中 。 该 文件 中 的 每 个 [deploy:target- 
name] 区 域 都 定义 了 一 个 新 的 部 署 目标 。 


$ pwd 
/root/book/ch11/properties 
$ cat scrapy.cfg 


[deploy:scrapyd1] 
url = http: //scrapyd1:6800/ 
[deploy:scrapyd2 
url = http: //scrapyd2:6800/ 
[deploy:scrapyd3] 


url = http://scrapyd3:6800/ 


可 以 通过 scrapyd-deploy -1 查询 当前 可 用 的 目标 。 


$ scrapyd-deploy -1 


scrapyd1 http: //scrapyd1:6800/ 
scrapyd2 http: //scrapyd2 :6800/ 
scrapyd3 http: //scrapyd3:6800/ 


通过 scrapyd-deploy <target-name>, FJ LRA E HE EE HR AS 


$ scrapyd-deploy scrapyd1 

Packing version 1449991257 

Deploying to project "properties" in http://scrapyd1:6800/addversion.json 
Server response (200): 

("status": "ok", "project": "properties", "version": "1449991257", 
"spiders": 2, "node name": "scrapydi"} 


该 过 程 会 留 给 我 们 一 些 额外 的 目录 和 文件 (build. project.egg- 
info. setup.py) ， 我 们 可 以 安全 地 删除 它们 。 本 质 上 ，scrapyd- 
deplo``y 所 做 的 事情 就 是 打包 你 的 项 目 ， 并 使 用 addversion.json 上 传 到 
目标 Scrapyd 服 务 嚣 当中。 


之 后 ， 当 我 们 使 用 scrapyd-deploy -L 得 询 单 台 服务 器 时 ， 可 以 确认 
项 目 是 人 否 已 经 被 成 功 部 署 ， 如 下 所 示 。 


$ scrapyd-deploy -L scrapyd1 
properties 





我 还 在 项 目 目录 中 使 用 touch 创 建 了 3 个 空 文件 (scrapyd1-3) 。 使 
用 scrapyd* 扩 展 为 文件 名 称 ， 同 样 也 是 目标 服务 器 的 名 称 。 之 后 ， 你 可 
以 使 用 一 个 bash 循 环 部 署 所 有 服务 器 : for i in  scrapyd*; do 
scrapyd-deploy $i; done. 


115 ”创建 目 定义 监控 命令 





如 果 想 监控 多 人 台 Scrapyd 服 务 堪 的 爬虫 进程 ， 则 需要 手动 执行 。 这 
是 一 个 很 好 的 机 会 ， 能 够 让 我 们 练习 到 目前 为 止 所 见 到 的 一 切 知识 ， 创 
建 一 个 原始 的 Scrapy 命 令 scrappy “ monitor， 用 于 监控 一 组 Scrapyd 
服务 器 。 我 们 将 该 文件 命名 为 monitor .py， 并 且 在 settings .py 文件 中 添 
加 coMMANDS_MODULE = 'properties.monitor'。 通 过 快速 浏览 Scrapyd 的 
文档 ， 我 们 发 现 1istjobs .json 这 个 API 可 以 为 我 们 提供 任务 相关 的 信 
息 。 如 果 想 要 找到 给 定 目 标的 基础 URL， 可 以 猿 到 它 一 定 在 scrapyd- 
deploy 代 码 中 的 某 个 地 方 ， 从 而 可 以 让 我 们 在 单个 文件 中 找到 它 。 如 果 
查看 https://github.com/scrapy/scrapyd- 
client/blob/master/scrapyd-client/scrapyd-deploy， 很 快 就 会 发 现 
_get_target() 函 数 《〈 由 于 其 实现 没有 添加 太 多 值 ， 因 此 我 会 忽略 
tO ， 在 该 函数 中 将 会 给 我 们 提供 目标 名 称 及 其 基础 URL。 太 棒 了 ! 我 
们 开始 实现 该 命令 的 第 一 部 分 吧 ， 其 代码 如 下 所 示 。 





class Command(ScrapyCommand): 
requires_project = True 


def run(self, args, opts): 
self._to_monitor = {} 
for name, target in self. get targets().iteritems(): 
if name in args: 
project - self.settings.get('BOT NAME') 
url = target['url'] + "listjobs.json?project-" + project 
self. to monitor[name] = url 


l = task.LoopingCall(self. monitor) 
l.start(5) # call every 5 seconds 


reactor.run() 


目前 我 们 所 看 到 的 实现 还 是 很 简单 的 。 它 使 用 目标 名 称 和 我 们 想 要 
监控 的 API 地 址 填充 to_monitor 字 典 。 然 后 ， 我 们 使 
用 task.Loopingcall() 计 划 到 _monitor() 方 法 的 定期 调用 。_monitor() 
方法 使 用 了 treq 和 延迟 操作 ， 而 我 们 使 用 了 @defer .inlinecallbacks 来 
简化 其 实现 。 下 面 是 其 代码 〈 已 忽略 一 些 错误 处 理 和 装饰 ) 。 


Qdefer.inlineCallbacks 


def _monitor(self): 
all_deferreds = [] 
for name, url in self. to monitor.iteritems(): 
d - treq.get(url, timeout-5, persistent-False) 
d.addBoth(lambda resp, name: (name, resp), name) 
all deferreds.append(d) 


all resp - yield defer.DeferredList(all deferreds) 


for (success, (name, resp)) in all resp: 
json resp - yield resp.json() 
print "%-20s running: %d, finished: %d, pending: %d" % 
(name, len(json resp['running']), 
len(json resp['finished']), len(json resp['pending'])) 


上 面 这 些 行 已 经 包含 了 我 们 知道 的 几乎 所 有 Twisted 技 术 。 我 们 使 
用 treq 调 用 Scrapyd 的 API， 并 且 使 用 defer .DeferredList BI AREE Dr 
响应 。 当 我 们 的 所 有 结果 进入 到 all_resp 之 后 ， 则 开始 迭代 并 获取 其 
JSONX}#. treq “Response 的 json() 方 法 将 会 返回 延迟 操作 ， 而 不 是 真 
实 值 ， 我 们 对 其 执行 了 yield 操 作 ， 并 会 在 未 来 的 某 个 时 间 点 恢复 其 真 
实 值 。 最 后 一 步 ， 我 们 打印 出 结果 。JSON 响 应 包含 待 处 理 、 运 行 中 及 
己 完 成 任务 列表 的 信息 ， 我 们 将 打印 出 它们 的 长 度 。 





11.6 {€H Apache Spark 流 计算 偏 移 量 


此 刻 ， 我 们 的 Scrapy 系 统 功能 齐全 。 现 在 ， 让 我 们 快速 看 一 下 
Apache Spark 的 功能 。 


在 本 章 最 开始 介绍 的 公式 sh 这 非常 简单 好 用 ， 但 是 无 法 有 效 实 
现 。 我 们 可 以 通过 两 个 计数 器 计算 Price， 使 用 2:niois 个 计数 器 计算 
Pricewitn， 每 个 新 价格 只 需 更 新 其 中 的 4 个 。 不 过 计算 Pricewitpout 则 是 一 
个 很 大 的 问题 ， 因 为 对 于 每 个 新 价格 来 襄 ， 都 需要 更 新 2:(nw6s-1) 个 计 
数 器 。 比 如 ， 我 们 需要 添加 jacuzzi 的 价格 到 每 个 Priceyjinowrt 计 数 器 中 ， 
而 不 是 只 有 jacuzzi 这 一 个 。 这 会 造成 算法 由 于 包含 大 量 条 件 而 不 可 行 。 
为 了 解决 该 问题 ， 我 们 所 能 注意 到 的 是 ， 如 果 我 们 将 带 某 个 条 件 的 


房产 价格 ， 与 不 带 相 同 条 件 的 房产 价格 相 加 ， 将 会 得 到 所 有 房产 的 价格 
(很 明显 ! ) HPXPrice = XPrice|,;, ^EPrice|,uno,9 因此， 不 带 某 个 条 


件 的 房产 平均 价格 可 以 使 用 如 下 的 代价 很 小 的 操作 进行 计算 。 


3 PrICeauhou E x Price — » Price wunout 


Nwithout n 一 Nwith 
使 用 该 公式 ， 偶 移 公 式 变 为 如 下 所 示 。 
$?; Pricelwin >> Price — >> — — Price 


n 











Price without = 





Shi ftterm = ( 


Mwith n 一 Nwith 


现在 让 我 们 看 看 如 何 实 现 该 公式 。 请 注意 此 处 不 是 Scrapy 的 代码 ， 
因此 感到 有 些 陌 生 是 很 正常 的 ， 不 过 你 仍然 可 以 不 费 太 多 力气 就 能 阅读 
并 理解 该 代码 。 你 可 以 在 boostwords .py 中 找到 该 应 用 。 请 记 住 该 代码 
ee 你 可 以 安全 地 忽略 它们 。 其 核心 代码 如 下 
和 外。 


# Monitor the files and give us a DStream of term-price pairs 
raw data = raw data = ssc.textFileStream(args[1]) 
word prices - preprocess(raw data) 


# Update the counters using Spark's updateStateByKey 


running word prices = word prices.updateStateByKey(update state function) 


# Calculate shifts out of the counters 
shifts - running word prices.transform(to shifts) 


# Print the results 
shifts.foreachRDD(print shifts) 


Spark 使 用 所 谓 的 ostream 表 示 数 据 流 。textFilestream() 方 法 监控 
文件 系统 的 目录 ， 当 它 检 测 到 新 文件 时 ， 将 会 从 中 获取 数据 
流 。preprocess() 函 数 将 其 转变 为 条 件 /价格 对 的 数据 流 。 我 们 通过 
Sparkf’JupdateStateByKey() Ji, f&H]update state function()PK ZW, 
在 运行 的 计数 器 中 聚合 这 些 条 件 /价格 对 。 最 后 ， 通 过 运行 to_shifts() 
计算 偏 移 量 ， 并 使 用 print_shifts() 函 数 打 印 出 最 佳 结果 。 我 们 的 大 部 
分 功能 都 很 简单 ， 它 们 只 是 按照 对 Spark 高 效 的 方式 形成 数据 。 最 有 意 
思 的 例外 是 我 们 的 to_shifts() 函 数 。 

def to_shifts(word_prices): 


(sum0, cnt0) = word prices.values().reduce(add tuples) 
avgO = sumO / cntO 











def calculate shift((isum, icnt)): 
avg with = isum / icnt 
avg without - (sumO - isum) / (cntO - icnt) 
return (avg with - avg without) / avgO 


return word prices.mapValues(calculate shift) 


它 如 此 紧密 地 遵循 公式 ， 令 人 印象 非常 深刻 。 除 了 其 简单 性 之 外 ， 
Spark 的 mapvalues() 使 我 们 的 《可 能 多 台 ) Spark 服 务 器 能 够 以 最 小 网 络 
开销 高 效 运行 calculate_shift。 
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PRE T e FH A 28 vin AA MEER A) SE ERE © EY EAR A d, 
因此 我 还 为 你 提供 了 打开 到 相关 服务 器 终端 的 vagrant ssh 命令 〈 见 图 
11.3) . 


2015-12-13 16:4: 
0015-12-13 16:04:36 
0015-12-13 16:04:37 
2015-12-13 16:04:39 
2015-12-13 16:04:40 
0015-12-13 16:04:42 
0015-12-13 16:04:43 


foot@dev: -/bookth1l/propartias 


(NU Y MEM USAGE / LIMIT MEM% 
0.02% 60.2 WB / 4,145 G8 145 
0.32% 245.2 MB / 4.145 GB 5,92% 
0,05% 54,2 MB / 4,145 08 12.908 
0.12 7,733 WB / 4,145 08 0.19% 
130.58 204,7 MB / 4,145 08 4,94 
117,24% 193.9 MB / 4,145 E] 
104,90% 197,7 MB / 4.145 NI 
16,17% 
35,12 MB / 4,145 GB 0.85% 


scrapydt 
scrapyd2 
scrapyd3 


102k 73M / 4.145 G 
37.7% 


[properties, middlenares] INFO: Posting batch 17 with 2000 URLs to scrapyd2:6800 
(properties middlenares) INFO; Posting botch 18 with 2000 URLs to scropyd3:6800 
[properties middlewares] INFO; Posting batch 19 with 2000 URLs to scropyd: 600 


[properties,middlewares] INFO: Posting batch 20 with 2000 URLs to scrapyd2: 6800 
(properties.middlenares) INFO: Posting batch 21 with 2000 URLs to scrapyd3:6800 


(properties.middlenares) INFO: 
(properties middlewores] INFO: 


Posting batch 22 with 2000 
Posting batch 23 with 2000 


URLS to scrapyd1: 6800 
URLs to scrapyd2:6800 








2015-12-13 16:04:45 [properties middlenares] INFO: Posting batch 24 with 2000 URLs to scrapyd3: 6800 
2015-12-13 16:04:46 [properties middlewares] INFO; Posting batch 25 with 2000 URLs to scrapydt: 6800 
2015-12-13 16:04:47 [scrapy] INFO: Closing spider (finished) 

2015-12-13 16:04:47 [properties.middlenares) INFO: Posting batch 26 with 570 URLs to scrapyd2: 6800 
2015-12-13 16:04:47 [scrapy) INFO: Dumping Scropy stats: 

{downloader/request_bytes': 474372, 

'downloader/Mequest_count': 1686, 

'downlooder /request method, count/GET' ; 1686, 

'downlooder/ response, bytes" : 34321988, 

'downloader/response, count"; 1686, 

'downloader/responsestatus_count/200': 1686, 

'dupefilter/filtered': 19, 

"Finish, reason’; ‘finished’ , 

"Finish tim"; datetime datetime(2015, 12, 13, 16, 4, 47, 681065), 

"Log.count/INFO': 33, | 

"request. depth. max"; 85, 

"response recelved count! : 1686, 

"scheduler/dequeued'; 1686, 

"scheduler/dequeved/memor'y’; 1686, 

'scheduler/enqueued' : 1686, 

'scheduler/enqueued/menory' : 1686, 

' start. tine! : datetime datetime(2015, 12, 13, 16, 4, 9, 430000)) 
0015-12-13 16:04:47 [scropy] INFO: Spider closed (Finished) 
rootedey;»/book/chil/ properties 








running; 4, finished; 13, pending: 0 
running: 4, finished; 13, pending: 0 
running: 4, finished: 12, pending: 0 


scrapybook — root&spark ~ — S.. 
root@spark; ~ + 


*, 0,3739569641092147), 
0,2609822763035133), 
@,17968955547361667), 
(,16255286743694053), 
14266264458585862) 


1659783942421), 

0, 28388620856061686), 
3503946343514336), 

0. 3673718785236563), 
.38401972065998013)] 





图 11.3 ”使 用 4 个 终端 监控 息 取 


在 终端 1 中 ， REAME 47 9 OS SRIDCPURI EPIRI, ZAH) 
于 识别 和 修复 潜在 问题 。 要 想 局 动 它 ， 可 运行 如 下 命令 。 


$ alias provider_id="vagrant global-status --prune | grep 'docker- 
provider' | awk '{print N$1]'" 

$ vagrant ssh $(provider id) 

$ docker ps --format "{{.Names}}" | xargs docker stats 





前 面 两 行 稍微 复杂 的 代码 允许 通过 ssh 登 录 到 docker provider VM 
中 。 如 果 使 用 的 不 是 虚拟 机 ， 而 是 运行 在 docker 驱 动 的 Linux 机 器 上 ， 那 
么 只 需要 最 后 一 行 。 


第 2 个 终端 同样 用 于 诊断 ， 一 般 按 照 如 下 命令 使 用 它 运 行 scrapy 


monitoro 





$ vagrant ssh 
$ cd book/ch11/properties 
$ scrapy monitor scrapyd* 


请 记 住 使 用 scrapyd* 以 及 以 服务 器 名 称 命名 的 空 文件 ，scrapy 
monitor scrapyd* 将 被 扩展 为 scrapy monitor scrapydi  scrapyd2 
scrapyd3. 


ZR3^ Aine DTE UTE BANTER ease. RUEDA. K 
部 分 时 间 是 空 亲 的 。 如 果 想 要 局 动 一 个 新 的 肘 虫 ， 可 以 执行 如 下 命令 。 


$ vagrant ssh 

$ cd book/chi1/properties 

$ for i in scrapyd*; do scrapyd-deploy $i; done 
$ scrapy crawl distr 





最 后 两 行 是 最 基本 的 。 首 先 ， 我 们 使 用 for 循 环 及 scrapyd-deploy 部 
署 朴 虫 到 服务 器 中 。 然 后 ， 使 用 scrapy crawl distr AINERE. R 
们 也 可 bb 运行 更 少 的 把 取 操作 ， 比如 scrapy crawl distr -S 
CLOSESPIDER_PAGECOUNT=100， 以 爬 取 大 约 100 个 索引 页 ， 相 当 于 大 概 
3000 个 详情 页 。 


最 后 的 第 4 个 终端 用 于 连接 Spark 服 务 器 ， 我 们 将 使 用 它 运 行 数据 流 
分 析 任 务 。 


$ vagrant ssh spark 

$ pwd 

/root 

$ 1s 

book items 

$ spark-submit book/ch11/boostwords.py items 





只 有 最 后 - 行 是 最 基本 的 ， 在 该 行 中 运行 了 boostwords .py， 并 将 
我 们 本 地 的 items 目 录 提 供给 监控 。 有 时 ， 我 还 会 使 用 watch ls -1 
items 来 关注 Item 文 件 的 到 达 情 况 。 


完 竟 哪些 关键 词 对 价格 影响 最 大 呢 ? 我 把 它 作 为 惊喜 ， 留 给 那些 一 
直 跟 随 下 来 的 读者 们 。 


11.8 ”系统 性 能 


在 性 能 方面 ， 结 果 很 大 程度 上 取决 于 我 们 的 人 硬件 情况 ， 以 及 我 们 给 
虚拟 机 的 CPU 数 量 和 内 存 大 小 。 在 实际 部 署 中， 我 们 可 以 获得 水 平 的 伸 
缩 性 ， 可 以 让 我 们 以 服务 器 允许 的 最 快速 度 运行 怜 取 。 


对 于 给 定 设置 情况 下 的 理论 最 大 值 是 : 3 个 服务 器 : 4 个 处 理 器 /服务 
器 16 个 并 发 请 求 : 4 个 页 面 / 秒 〈 通 过 页 面 下 载 延 迟 定义 ) = 768 个 页 面 / 
秒 。 








实践 时 ， 在 Macbook Pro 中 使 用 分 配 了 4GB 内 存 以 及 8 核 CPU 的 
VirtualBox 虚 拟 机 ， 我 可 以 在 2 分 40 秒 的 时 间 内 获取 50,000 个 URL， 也 就 
是 大 约 315 个 页 面 / 秒 。 在 拥有 2 个 vCPU 和 8GB 内 存 的 Amazon EC2 
m4.large 实 例 中 ， 由 于 有 限 的 CPU 能 力 ， 人 花费 了 6 分 12 秒 的 时 间 ， 即 134 
个 页 面 / 秒 。 在 拥有 16 个 vCPU 和 64GB 内 存 的 Amazon EC2 m4.4xlarge 实 
例 中 ， 疏 取 完 成 时 间 是 1 分 44 秒 ， 即 480 个 页 面 / 秒 。 在 同一 台 机 器 中 ， 
我 将 Scrapyd 的 实例 数量 加 倍 ， 即 增加 到 6 个 (只 需 编 辑 
Vagrantfile、scrapy.cfg 以 及 settings.py) ， 此 时 疏 虫 完成 时 间 为 1 分 
15 秒 ， 即 其 速度 为 667 个 页 面 / 秒 。 在 最 后 一 种 情况 下 ， 我 们 的 Web 服 务 
器 似乎 过 到 了 瓶 贷 (在 实际 中 意味 着 中 断 〉。 


我 们 得 到 的 性 能 与 理论 最 大 值 之 间 的 距离 是 合理 的 。 有 很 多 小 的 延 
述 在 我 们 的 粗略 计算 中 是 没有 考虑 进去 的 。 尽 管 我 们 之 前 声称 有 250ms 
的 页 面 加 载 延迟 ， 但 是 在 前 面 的 章节 中 可 以 看 到 该 延迟 实际 上 更 大 ， 
为 至 少 还 有 Twisted 和 操作 系统 的 延迟 。 另 外 ， 还 有 一 些 其 他 延迟 ， 比 
如 URL 从 开发 机 传输 到 Scrapyd 服 务 器 的 时 间 、 我 们 息 取 的 Item 通 过 FTP 
传 给 Spatk 的 时 间 以 及 Scrapyd 发 现 和 计划 任务 所 花费 的 时 间 (平均 2.5 秒 
参考 Scrapyd 的 poll_interval 设 置 ) 。 此 外 ， 还 有 开发 机 以 及 
Scrapyd 疏 取 的 局 动 时 间 没 有 计算 进来 。 我 将 不 会 尝试 改善 这 些 延 迟 中 
的 任何 一 个 ， 除 非 能 确定 它们 可 以 提升 吞吐 量 。 我 的 下 一 步 是 增加 疏 取 
的 大 小 《比如 50 万 个 页 面 ) 、 负 载 均 衡 几 个 Web 服 务 右 实例 以 及 在 我 们 
的 扩展 竹 试 中 发 现下 一 个 有 趣 的 挑战 。 

















11.9 ”关键 要 点 





本 章 最 重要 的 要 点 是 ， 如 果 你 想 运 行 分 布 式 息 忠 ， 则 应 当 使 用 合适 
的 批 次 大 小 。 


根据 源 网 站 的 啊 应 速度 ， 你 可 能 有 数 百 、 数 干 其 至 数 万 个 URL。 你 
会 希望 它们 足够 大 ， 达 到 几 分 钟 的 级 别 ， 以 便 能 够 分 挫 局 动 成 本 。 而 男 
一 方面 ， 你 又 不 希望 它们 过 大 ， 因 为 这 将 会 使 机 器 故障 成 为 主要 风险 。 
在 容错 分 布 式 系统 中 ， 你 可 以 重 试 失败 的 批 次 ， 但 你 不 会 希望 这 将 给 你 
带 来 几 个 小 时 的 工作 量 。 





11.10 本章 小 结 


我 希望 你 能 喜欢 这 本 关于 Scrapy 的 书 ， 就 像 我 编写 它 那 样 。 你 现在 
已 经 对 Scrapy 的 能 力 有 了 非常 丰富 的 了 解 ， 并 且 能 够 使 用 它 实 现 或 简单 
或 复杂 的 仆 虫 场景 。 你 也 会 对 使 用 这 样 一 个 高 性 能 系统 并 充分 利用 它 进 
行 开 发 的 复杂 性 有 所 了 解 。 使 用 爬虫 ， 你 可 以 通过 自己 的 应 用 及 时 获取 
现实 世界 中 的 大 规模 数据 集 。 我 们 已 经 看 到 了 使 用 Scrapy 数 据 集 构 建 手 
机 应 用 及 实现 有 趣 分 析 的 方式 。 希 望 你 能 使 用 Scrapy 开 发 出 优秀 、 创 新 
的 应 用 ， 让 我 们 的 世界 变 得 更 好 。 祝 你 好 运 ! 





附录 A 必 备 软件 的 安 疤 与 故障 排除 


AL 必 备 软件 的 安装 


本 书 使 用 了 庞大 的 虚拟 服务 器 系统 演示 现实 中 多 服务 嚣 部署 环境 下 
的 Scrapy 使 用 。 我 们 使 用 了 行业 标准 工具 Vagrant 和 Docker， 来 搭建 
该 系统 。 由 于 本 书 严重 依赖 于 网 站 内 容 和 布局 ， 如 果 我 们 使 用 不 可 控 的 
网 站 ， 那 么 我 们 的 例子 将 会 在 几 个 月 的 时 间 之 后 无 法 使 用 。Vagrant 和 
Docker 为 我 们 提供 了 一 个 独立 的 环境 ， 在 这 里 我 们 的 示例 无 论 现在 还 是 
以 后 都 能 正常 运行 。 作 为 附带 的 好 人 处， 我 们 不 会 访问 任何 远程 服务 器 ， 
因此 束 不 会 对 任何 网 站 管理 者 造成 不 便 。 即 使 我 们 破坏 了 某 些 东西 ， 造 
成 示例 无 法 工作 ， 也 可 以 使 用 两 个 命令 : vagrant destroy 和 vagrant up 
--no-parallel, 销毁 并 重建 系统 ， 继 续 运 行 。 


在 开始 之 前 ， 我 需要 说 明 一 下 ， 该 基础 架构 是 专门 为 本 书 读者 的 需 
求 定 制 的 。 尤 其 是 有 关 Docker 的 部 分 ， 普 这 共识 是 每 个 Docker 容 器 应 当 
是 只 运行 单一 进程 的 微服 务 。 我 们 并 没有 这 么 做 。 我 们 的 很 多 Docker 容 
器 都 比较 重 ， 我 们 可 以 使 用 vagrant ”ssh 连接 它们 并 执行 各 种 操作 。 尤 
其 是 我 们 的 开发 机 看 起 来 一 点 也 不 像 微 服务 。 这 是 我 们 去 往 访 隔离 系统 
的 用 户 友好 的 网 关 ， 我 们 将 其 视 为 功能 齐全 的 Linux 机 器 。 如 果 我 们 不 
使 用 这 种 方式 改变 规则 ， 就 必须 使 用 大 量 的 Vagrant 和 Docker 命 令 ， 更 加 
深入 地 排查 故障 ， 在 这 种 情况 下 本 书 将 很 快 变 为 Vagrant/Docker 书 籍 。 
我 希望 Docker 爱 好 者 能 够 原 这 我 们 ， 并 且 每 位 读者 能 够 享受 到 Vagrant 和 和 
Docker 带 给 我 们 的 方便 和 益处 。 




















本 书 中 的 容器 不 适用 于 生产 环境 。 


我 们 不 可 能 测试 每 个 软件 /硬件 的 配置 。 假 设 某 些 地 方 无 法 工作 ， 
如 果 可 以 的 话 ， 请 修复 它 并 在 GitHub 中 向 我 们 发 送 一 个 Pull Request. "ll 
果 你 不 知道 如 何 修 复 ， 那 么 请 在 GitHub 上 搜索 相关 issue， 如 果 不 存 在 的 
话 请 打开 一 个 新 的 issue。 


A.2 系统 


本 节 用 于 参考 。 你 可 以 先 跳 过 本 市 内 容 ， 当 想 要 更 好 地 理解 本 书 系 
— 可 以 返回 来 阅读 本 市 。 我 们 在 相关 半 市 中 重复 了 本 市 
à 部 分 a: 


我 们 使 用 Vagrant 构 建 了 如 下 系统 〈 见 图 A.1) 。 
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scrapyd:6801-6803 


scrapyd1..3 
(scrapybook/dev) 
Ubuntu Trusty + scrapyd 


(scrapybook/spark) 
Ubuntu Trusty + pure-ftpd 
+ Apache Spark 


图 A.1 本 书 使 用 的 系统 


在 图 A.1 中 ， 每 个 方 框 表示 一 台 服 务 器 ， 主 机 名 是 其 标题 的 第 一 部 
分 (dev, web, esf) 。 标 题 的 第 二 部 分 是 其 使 用 的 Docker 镜 像 
(scrapybook/dev、scrapybook/web、scrapybook/es 等 ) 。 下 面 是 运行 
在 该 服务 右上 的 软件 的 简要 摘 述 。 线 段 表示 不 同 服务 器 之 间 的 链接 ， 其 
协议 写 在 线段 劳 边 。Docker 所 提供 的 隔离 的 一 部 分 是 不 允许 超出 显 式 声 
明 的 连接 。 也 就 是 说 ， 比 如 你 想 在 Spark 服 务 器 上 使 用 1234 端 口 监听 某 
些 东西 ， 除 非 你 在 Vagrant 文 件 中 添加 相关 声明 暴露 该 端口 ， 否 则 没有 
人 能 连接 到 该 端口 。 请 记 住 这 一 点 ， 以 避免 在 其 他 服务 器 中 安装 自 定义 
软件 时 出 现 问 题 。 


在 大 部 分 章节 中 ， 我 们 只 会 使 用 到 两 个 机 器 : dev 和 web。vagrant 
ssh 可 以 让 我 们 连接 到 开发 机 中 。 我 们 可 以 从 这 里 使 用 主机 名 很 轻松 地 
访问 其 他 机 器 (mysql1、web 等 ) 。 我 们 可 以 通过 执行 如 ping web 的 操作 
来 确认 能 否 访问 web 机 器 。 我 们 在 每 划 中 使 用 并 解释 了 很 多 命令 。 第 9 章 
演示 了 如 何 推送 数据 到 不 同 的 数据 库 。 第 11 章 使 用 了 3 个 运行 Scrapyd 的 
Docker 容 器 《实际 上 与 开发 机 相同 ， 以 减少 下 载 大 小 ) ， 这 些 机 器 的 主 
机 名 分 别 是 scrapyd1-3。 我 们 还 使 用 了 一 个 主机 名 为 spark 的 服务 器 ， 用 
于 运行 Apache Spark 以 及 FTP 服 务 。 可 以 使 用 vagrant ssh spark 连 接 该 
服务 器 ， 并 运行 Spark 任 务 。 


可 以 在 GitHub 顶 级 目录 的 vagrantfile 中 找到 该 系统 的 描述 。 当 输 
入 vagrant up --no-parallel 时 ， 系 统 将 开始 构建 。 这 将 会 花费 几 分钟 
时 间 ， 尤 其 是 在 第 一 次 构建 时 ， 我 们 将 会 在 后 面 的 FAQ 中 了 解 到 更 详细 
的 介绍 。 可 以 看 到 ， 本 书 代码 是 挂 载 在 ~/book 目 录 当 中 的 。 任 何 时 候 我 
们 在 答 主 机 修改 其 中 的 内 容 时 ， 变 更 都 会 自动 传播 。 这 样 我 们 就 可 以 使 
用 文本 编辑 器 或 IDE 修 改 文件 ， 并 且 可 以 在 开发 机 中 快速 查看 变化 了 。 


最 后 ， 一 些 监听 端口 被 转发 到 我 们 的 宿主 机 中 ， 并 暴露 了 相关 的 服 
务 。 比 如 ， 你 可 以 使 用 一 个 简单 的 web 浏览 器 来 访问 它们 。 如 果 你 已 经 
在 计算 机 中 使 用 了 其 中 某 个 端口 ， 那 么 会 产生 冲突 ， 导 致 系统 构建 无 法 
成 功 。 我 们 将 会 在 后 面 的 FAQ 中 告知 你 如 何 解 决 这 种 情况 。 表 A.1 是 转 
发 的 端口 列表 。 

















AAA 


| 机 器 和 服务 — 的 地 址 m (宿主) 机 访问 的 地 址 
http://dev: 6800 http://localhost : 6800 
redis://redis:6379 redis://localhost : 6379 













MySQL - MySQL CE 


部 分 机 器 的 ssh 也 是 暴露 的 ，Vagrant 负 责 为 我 们 重 定 向 并 转发 这 些 
端口 ， 以 避免 冲突 。 我 们 所 需要 做 的 就 是 运行 vagrant ssh «hostname» 
来 访问 想 要 连接 的 机 器 。 


A.3 安装 概述 


我 们 所 需 安装 的 必要 软件 如 下 : 





e Vagrant; 
e git; 
e VirtualBox (Windows 或 Mac 主 机 ) 或 Docker (Linux 主 机 ) - 


在 Windows 中 ， 可 能 还 需要 启用 git ssh 客 户 端 。 你 可 以 访问 它们 的 
网 站 ， 并 遵照 它们 对 你 所 使 用 的 平台 描述 的 步骤 操作 。 在 下 面 几 节 中 ， 
我 们 将 尝试 提供 逐步 指引 方案 ， 目 前 来 说 这 些 方法 是 有 效 的 ， 不 过 它们 
肯定 会 在 未 来 某 个 时 间 失 效 ， 因此 也 请 随时 关注 其 官方 文档 。 











A.4 在 Linux 上 安装 





我 们 之 所 以 首先 介绍 如 何在 Linux 上 安装 系统 是 因为 它 是 最 简单 
的 。 我 将 以 Ubuntu 14.04.3 LTS (Trusty Tahr) 进 行 演示 ， 不 过 该 过 程 在 其 
他 分 发 版 本 中 也 会 十 分 相似 ， 当 然 分 发 版 本 越 不 常见 ， 你 就 越 能 了 解 如 
何 填补 其 中 的 差距 。 为 了 安装 Vagrant， 需 要 访问 Vagrant 的 网 
站 : https://www.vagrant.com/, FN Wi. FERR. Debian 
package, 64-bit version 。 复 制 链接 地 址 ， 如 图 A.2 所 示 。 
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我 们 将 使 用 终端 安装 Vagrant， 因 为 这 是 最 通用 的 方式 ， 尽 管 可 以 
在 Ubuntu 上 通过 几 下 单 击 达成 相同 目的 。 为 了 打开 终端 ， 需 要 单 击 屏幕 
左上 角 的 Ubuntu 图 标 来 打开 Dash。 另 一 种 方案 是 ， 按 下 Windows 按 键 。 
然后 输入 terminal， 并 单 击 Terminal 图 标 以 打开 它 。 


我 们 输入 wget， 并 粘贴 从 Vagrant 页 面 中 得 到 的 链接 。 几 秒 后 ， 将 会 
下 载 一 个 .deb 文 件 。 输 入 sudo dpkg -I <name of the .deb file you 
just downloaded> 以 安装 文件 。 到 这 里 为 止 ，Vagrant 已 经 被 安装 好 了 。 


安装 git 只 需要 在 终端 中 输入 如 下 两 行 命令 。 


$ sudo apt-get update 
$ sudo apt-get install git 


现在 ， 让 我 们 来 安装 Docker。 我 们 将 按照 https://docs.docker. 
com/engine/ installation/ubuntulinux/ 的 指南 进行 安装 。 在 终端 中 ， 
输入 如 下 命令 。 


$ sudo apt-key adv --keyserver hkp://p80.pool.sks-keyservers.net:80 
--recv-keys 58118E89F3A912897C070ADBF76221572C52609D 


$ echo "deb https://apt.dockerproject.org/repo ubuntu-trusty main" | sudo 
tee /etc/apt/sources.list.d/docker.list 


$ sudo apt-get update 
$ sudo apt-get install docker-engine 
$ sudo usermod -aG docker $(whoami) 





我 们 登 出 并 再 重新 登录 以 应 用 分 组 变化 ， 此 时 ， 应 该 可 以 没有 问题 
地 使 用 docker ”ps 命令 了 。 现 在 ,我 们 可 以 下 载 本 书 的 代码 ， 并 享受 本 
书 内 容 。 

$ git clone https://github.com/scalingexcellence/scrapybook.git 


$ cd scrapybook 
$ vagrant up --no-parallel 


A.5 在 Windows 或 Mac 上 安装 





Windows 和 Mac 环 境 中 的 安装 过 程 是 相似 的 ， 因 此 我 们 将 一 起 介绍 
这 两 种 环境 下 的 安装 ， 并 凸显 它们 之 间 的 区 别 。 


A.5.1 安装 Vagrant 
为 了 安装 Vagrant， 我 们 需要 访问 Vagrant 的 网 站 : https://www. 


vagrantup.com/， 并 浏览 其 下 载 页 。 选 择 自 己 的 操作 系统 ， 并 使 用 安装 
同 导 进行 安装 ， 如 图 A.3 所 示 。 
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图 A.3 
几 次 单 击 之 后 ，Vagrant 将 会 安装 好 。 要 想 访问 它 ， 需 要 打开 命令 
行 或 终端 。 
A.5.2 如何 访问 终端 
在 Windows 中 ， 可 以 按 下 Ctrl + Esc XWin 键 打开 应 用 荣 单 ， 并 搜 


索 cmd。 而 在 Mac 中 ， 可 以 按 下 Cmd + Space， 并 搜索 terminal。 上 述 访 
问 方式 如 图 A.4 所 示 。 
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无 论 哪 种 情况 ， 我 们 都 得 到 了 一 个 控制 台 窗 口 ， 当 我 们 输 
入 vagrant 时 ， 将 会 打印 出 一 些 说 明 。 这 就 是 我 们 现在 所 需要 做 的 所 有 
事情 。 


A.5.3 ”安装 VirtualBox 和 Git 
为 了 简化 该 步骤 ， 我 们 将 安装 Docker Toolbox， 在 其 中 已 经 包含 了 


Git 和 VirtualBox。 如 果 我 们 使 用 Google 搜 索 docker toolbox install, "JVA 
找到 https://www.docker.com/ docker-toolbox， 在 这 里 可 以 下 载 适用 


于 我 们 操作 系统 的 版 本 。 安 装 过 程 像 Vagrant 一 样 简 单 ， 如 网 A.5 所 示 。 
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图 A.5 
A.5.4 确保 VirtualBox 支 持 64 位 镜像 
安装 好 Docker ”Toolbox 之 后 ， 可 以 在 Windows 时 面 或 Mac 的 启动 器 


( 按 下 F4 打 开 ) 中 找到 VirtualBox 的 图 标 。 尽 早 检查 VirtualBox 是 否 文 持 
64 位 镜像 非常 重要 ， 检 查 过 程 如 图 A.6 所 示 。 


22222222222222 


TIL) Oracle VM VirtualBox Manager | 













Windows 3 T 
S ADU wes Has 64-Ditt mages, 
à; 7 WndowsME ' 
Fy Name at windows NT 4 Good! | 
a a ~ Windows 2000 rt 
7 top Windows XP (2 K l 
VirtualBox Y a eas Windows XP (4b pe 
I emt | 
à n i 
: -—- Click new VM Wu nte | 
VirtualBox in Mac's | Nane, Weds Vea G4 | 
launchpad | —— 
j j Windows 2008 (64-b) 四 
p Check available versions | ma T 
Version | 
— Wows 8 2- ' 
Kitematic | Windows 8 84-b) | 
(Alpha) Windows 8.1 (82-bit | 


Windows 8.1 (64-bit) | 


NOTES l 
Does 


VirtualBox - Error 







VT-X/AMD-V hardware 


















acceleration is not available on 
_ Healt mages ol your system. Your 64-bit quest 
: Will fall to detect a 64 —— 6 Rad ea 
Oracle VM mpgiveSierrOr — Redi= MeryiBad: 


ton | ; A 
s. Bad! A wam Od hardware? I 


Copy | Continue ore available. Securty reewere by Stave Gibson, si 


VirtualBox 
















AMD Opteron Processor 417 


64 Yes No 


Maximum Hardware Hardware 
Bit Length DEP. Virtualization 








Windows 
Desktop 





Linux ! 
Linux 2.4 (32-bit) | 
Linux 2.6 / 3x | 4.x (32-bit) | 
Arch Linux (32-bit | 








openSUSE (32bit) ,Dey ott ems above o view onal taalednomaio 
Fedora (32-bit) | fase ped end sere dd oa 
Gentoo (32-bit) i 


Mandriva (32-bit we vr [1029701 | 
nin id Check with Securlblese — 








图 A.6 


打开 VirtualBox， 单 击 New 按 钮 来 创建 一 个 新 的 虚拟 机 。 查 看 版 本 
下 拉 荣 单 ， 检 查 其 中 的 选项 ， 然 后 单 击 Cancel。 我 们 现在 还 不 需要 真正 
创建 一 个 虚拟 机 。 
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如 果 下 拉 沫 单 中 包含 64 位 镜像 ， 那 么 我 们 可 以 跳 过 本 节 接 下 来 的 部 


如 果 下 拉 菜 单 中 没有 包含 64 位 镜像 ， 或 者 当 我 们 答 试 运行 一 个 64 位 
虚拟 机 时 得 到 类 似 VT-x/AMD-V hardware acceleration is notavailable 
on your system £6 Vx fei iia, dE TRI newt ALERTS - 


这 意味 着 VirtualBox 无 法 检测 到 我 们 电脑 中 的 VT-x 或 AMD-V 扩 展 。 
如 果 我 们 的 硬件 过 旧 ， 那 么 这 种 情况 是 合理 且 符 合 预 期 的 。 但 是 如 果 是 
新 便 件 ， 那 么 很 可 能 是 由 于 这 些 扩展 在 BIOS 中 被 禁用 了 。 如 果 我 们 使 
用 的 是 Windows 系 统 〈 很 大 可 能 ) ， 一 个 简单 的 方式 是 通过 名 为 
SecurAble 的 工具 进行 检查 ， 该 工具 可 以 从 https://www.grc.com/ 
securable.htm 中 下 载 。 如 果 Hardware Virtualization 为 红色 且 提 示 为 No 
的 话 ， 束 意味 着 我 们 的 CPU 不 支持 必要 的 虚拟 扩展 。 在 这 种 情况 下 ， 我 
们 将 无 法 运行 Vagrant/Docker， 不 过 我 们 仍然 可 以 安装 Scrapy， 并 且 使 
用 在 线 网 站 (scrapybook.s3. amazonaws.com) 作为 源 来 运行 这 些 示 
例 。 我 们 可 以 从 第 4 章 中 的 朴 虫 开始 使 用 ， 该 朴 虫 是 可 以 直接 拿 来 使 用 
的 ， 并 且 是 针对 在 线 网 站 构建 的 。 


如 果 Hardware Virtualization 为 绿色， 我 们 很 可 能 可 以 从 BIOS 中 局 











用 该 扩展 。 使 用 Google 搜 索 你 的 电脑 机 型 ， 以 及 如 何 变 更 BIOS 中 关于 
VT-x 或 AMD-V 的 设置 。 通 常情 况 下 ， 我 们 可 以 在 重启 时 按 下 茶 个 按键 
以 访问 BIOS。 在 这 里 ， 我 们 需要 进入 安全 相关 的 菜单 ， 然 后 启 
用 Virtualization Technology (VTx) 或 其 他 类 似 写法 的 选项 。 重 局 过 后 ， 
我 们 将 能 够 从 该 计算 机 运行 64 位 的 虚拟 机 。 
A.5.5 在 Windows 中 局 用 ssh 客 户 端 

如 果 我 们 使 用 的 是 Mac， 将 不 需要 本 步 ， 可 以 直接 跳 到 下 一 节 中 。 
如 果 我 们 使 用 的 是 Windows， 则 没有 提供 给 我 们 默认 的 ssh 客 户 端 。 这 


运 的 是 ，Git〈 我 们 刚才 安装 的 ) 有 一 个 ssh 客 户 端 ， 我 们 可 以 通过 添加 
Windows Path 的 方式 激活 它 ， 如 图 A.7 所 示 。 
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默认 情况 下 ，ssh 的 三 进 制 文件 位 于 c:\Program Files\Git\usr\bin 
中 (图 A.7 所 示 的 1 区 域 )。 我 们 需要 添加 c:\Program 
Files\Git\usr\bin 和 c:\Program Files\Git\bi`*n 到 路 和 当中。 为 了 实 
现 该 目的 ， 我 们 需要 将 它们 复制 到 记事 本 中 ， 并 在 每 个 路 径 前 添加 ;来 
连接 它们 (如 图 A.7 所 示 的 3 区 域 。 最 终结 果 如 下 所 示 : 


;C:\Program Files\Git\bin;C:\Program Files\Git\usr\bin 





现在 ， 按 下 Ctrl + Esc 或 Win 按 键 ， 打 开 开 始 菜 单 ， 然 后 找到 
Computer (计算机 〉 选 项。 右键 单 击 它 (图 A.7 所 示 的 4 区 域 ， 并 选 
择 Properties 属性) 。 在 弹出 的 窗口 中 ， 选 择 Advanced System 
Settings (高 级 系统 设置 ) 。 然 后 ， 单 击 Environment Variables (环境 
变量 ) 。 这 里 是 我 们 用 于 编辑 Path 的 表单 。 单 击 Path 以 编辑 它 。 在 Edit 
User Variable “编辑 用 户 变 量 ) 对 话 框 中 ， 我 们 在 结尾 处 粘贴 在 记事 本 
中 连接 的 两 个 新 路 径 。 应 当 小 心 不 要 意外 上 履 盖 退 加 路 径 ; 之 前 的 任何 
值 。 然 后 单 击 几 次 OK AE) ， 退 出 所 有 对 话 框 ， 此 刻 必 备 软件 已 经 
全 部 安装 完毕 。 


A5.6 ”下载 本 书 代码 并 创建 系统 


现在 ， 我 们 已 经 拥有 了 一 个 功能 齐全 的 Vagrant 系 统 ， 接 下 来 打开 
一 个 新 的 控制 台 / 终 端 /命令 行 〈 我 们 已 经 在 前 面 见 过 如 何 打开 ) ， 输 入 
如 下 命令 ， 至 受 本 书 所 带 来 的 乐趣 。 

$ git clone https://github.com/scalingexcellence/scrapybook.git 


$ cd scrapybook 
$ vagrant up --no-parallel 


A.6 系统 创建 与 操作 FAQ 





接 下 来 是 你 在 首次 使 用 Scrapy 工 作 时 可 能 过 到 的 问题 的 解决 方案 。 
A.6.1 我 应 该 下 载 什么 以 及 需要 花费 多 少时 间 


当 我 们 运行 vagrant up --no-parallel 之 后 ， 就 没有 那么 多 的 可 见 
度 了 。 所 经 过 的 时 间 与 我 们 的 下 载 速 度 及 网 络 连接 质量 密切 相关 。 图 
A.8 所 示 为 当 网 络 连接 能 力 达 到 每 秒 下 载 5MB (38Mobit/s〉 内 容 时 的 期 望 
时 间 。 
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图 A.8 


如 果 我 们 使 用 的 是 Linux 环 境 ， 或 是 Docker 已 经 被 安装 好 ， 那 么 前 
An 
载 量 。 


请 注意 ， 上 述 所 有 步骤 只 与 用 于 下 载 全 部 内 容 的 vagrant up --no- 
parallel 命 令 的 第 一 次 运行 相关 。 后 续 运 行 在 通常 情况 下 只 会 花费 不 到 
10 秒 的 时 间 。 


A.6.2 ”如 果 Vagrant 无 法 响应 应 该 怎么 办 


可 能 会 有 很 多 原因 导致 Vagrant 无 法 响应 ， 我 们 所 需要 做 的 就 是 按 
下 Ctrl + C 两 次 从 中 退出 。 然 后 再 次 演 试 vagrant up --no-parallel, Jt 
时 应 当 能 够 恢复 。 我 们 可 能 需要 这 样 做 几 次 ， 这 取决 于 网 络 连接 的 速度 
和 质量 。 如 果 打 开 Windows Task Manager (Windows 任 务 管理 器 ) 或 
Mac 的 Activity Monitor QES HEILS) ， 可 以 更 清晰 地 看 到 Vagrant 正 
在 做 什么 ， 如 图 A.9 所 示 。 
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图 A.9 


在 下 载 期 间或 之 后 不 超过 60 秒 的 短暂 无 法 啊 应 是 可 以 预期 的 ， 因 为 
此 时 软件 正在 进行 安装 。 而 更 长 时 间 的 无 法 响应 则 很 有 可 能 意味 着 出 现 








了 某 些 问 题 。 


当 我 们 中 断后 再 恢复 时 ，vagrant up --no-parallel 可 能 会 执行 失 
败 ， 并 返回 类 似 下 面 所 述 的 错误 信息 。 


Vagrant cannot forward the specified ports on this VM... The forwarded 
port to 21 is already in use on the host machine. 


这 同样 是 一 个 临时 性 的 问题 。 如 果 我 们 再 次 运行 vagrant up --no- 
parallel， 则 应 该 能 够 成 功 恢复 。 
假设 我 们 见 到 了 如 下 的 失败 信息 。 


.. Command: "docker" "ps" "-a" "-g" "--no-trunc" 
Stderr: bash: line 2: docker: command not found 


i 如 果 发 生 该 情况 ， 请 按照 下 一 个 问题 所 显示 的 方法 关闭 并 恢复 虚拟 
TL. 
A6.3 ”如何 快速 关闭 /恢复 虚拟 机 

当 使 用 虚拟 机 时 ， 最 快 的 关闭 方式 是 进入 节能 状态 ， 具 体 来 说 就 是 


打开 VirtualBox， 选 择 虚 拟 机 ， 按 下 Ctrli+ V 或 Cmd + V, 或 右键 单 击 集 
单 并 选择 Save State (保存 状态 ) ， 如 图 A.10 所 示 。 
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图 A.10 


我 们 可 以 通过 运行 vagrant up --no-parallel 恢 复 虚拟 机 。 开 发 和 
Spatk 服 务 器 的 ~/book 目 录 都 应 该 可 以 正常 工作 。 


A.6.4 如 何 完全 重 置 虚拟 机 


如 果 我 们 想 要 变更 核心 数量 、 内 存 大 小 或 虚拟 机 的 端口 映射 ， 则 需 
要 进行 完全 重 置 。 为 了 达到 该 目的 ， 我 们 仍然 需要 按照 前 一 个 答案 的 步 
又 操作 ， 不 过 现在 要 选择 的 是 Power Off (关闭 电源 ) ， 或 者 按 下 Ctrl + 
FE Cmd + F。 我 们 也 能 通过 编程 方式 完成 此 事 ， 其 执行 语句 是 vagrant 
global-status ”--prune。 我 们 可 以 找到 名 为 “docker-provider” 的 虚拟 主 
机 的 ID 〈 比 如 95d1234) ， 然 后 使 用 vagrant halt 停止 它 ， 比 如 vagrant 
halt 957d887. 


然后 ， 可 以 使 用 vagrant up --no-parallelH HAA. ALL 
的 是 ， 开 发 和 Spark 机 器 很 可 能 已 经 清空 了 其 ~/book 目 录 。 要 想 解 决 该 
问题 ， 可 以 运行 vagrant destroy -f dev spark， 然 后 重新 运行 vagrant 
up --no-parallel。 这 将 解雇 此 类 问题 。 


A.6.5 如何 调整 虚拟 机 大 小 


我 们 可 能 想 要 改变 虚拟 机 的 大 小 ， 比 如 将 使 用 的 内 存 从 2GB 调 整 为 
1GB， 将 使 用 的 8 核 调整 为 4 核 。 我 们 可 以 通过 编辑 
vagrantfile.dockerhost 的 vb.memory 及 vb.cpus 设 置 来 进行 调整 。 然 
后 ， 按 照 上 一 个 答案 的 流程 完全 重 置 虚拟 机 。 


A.6.6 u fgg vom OPR 


有 时 ， 在 主机 上 运行 的 一 些 服 务 可 能 占用 了 该 系统 需要 的 端口 。 首 
先 ， 请 注意 如 果 我 们 打开 了 这 两 个 机 器 的 vagrantfile， 请 移 除 其 中 所 
有 的 forwarded_port 语 句 ， 按 照 后 面 讲 到 的 方法 重 置 ， 此 时 仍然 能 够 运 
行 本 书 中 的 示例 。 我 们 可 能 刚好 不 太 容 易 检查 箱 主 机 上 这 些 端口 运行 的 
服务 (通常 通过 Web 浏 览 器 〉。 


也 就 是 说 ， 我 们 可 以 通过 重新 映射 冲突 端口 的 方式 更 适当 地 解决 冲 
突 。 让 我 们 使 用 Web 服 务 器 9312 端 口 的 冲突 作为 示例 。 根 据 我 们 运行 的 




















是 原生 Linux 还 是 虚拟 机 ， 过 程 会 有 些许 不 同 。 
Linux 坏 境 使 用 原生 Docker 


该 问题 将 表现 为 如 下 所 示 的 错误 信息 。 


Stderr: Error: Cannot start container a22f...: failed to create 
endpoint web on network bridge: Error starting userland proxy: listen 
tcp 0.0.0.0:9312: bind: address already in use 


打开 Dockerfile， 编 辑 Web 服 务 器 中 forwarded_port 语 句 的 host 值 。 
之 后 ， 使 用 vagrant destroy _ web 销毁 Web 服 务 器 ， 并 通过 vagrant up 
web 重 局 ， 如 果 问 题 发 生 在 初始 化 加 载 阶段 ， 则 使 用 vagrant up --no- 
parallel KEDR. 


Windows 或 Mac 环 境 使 用 虚拟 机 
此 时 ， 我 们 会 得 到 不 同 的 错误 信息 。 


Vagrant cannot forward the specified ports on this VM, since they 
would collide... The forwarded port to 9312 is already in use 
on the host machine... 


为 了 修复 该 问题 ， 我 们 需要 打开 vagrantfile.dockerhost， 移 除 已 
有 的 包含 端口 号 的 行 。 然 后 在 下 面 添 加 目 定 义 端 口 转发 语句 ， 比 如 : 
config.vm.network “forwarded_port”, guest: 9312, host: 9316. 此 
时 将 会 修改 为 使 用 9316 问 口 。 接 下 来 ， 按 照 “ 如 何 完全 重 置 虚拟 机 ”这 一 
问题 的 答案 流程 重 置 虚拟 机 ， 一 切 又 都 会 正常 工作 了 。 


A.6.7 ”如 何 隐藏 在 公司 代理 背后 工作 


有 一 些 简单 代理 和 TLS 拦 截 代 理 。 简 单 代 理 需 要 我 们 在 请 求 到 达 互 
联网 之 前 ， 转 发 到 代理 服务 器 上 。 它 们 可 能 需要 权限 验证 ， 也 可 能 不 需 
要 ， 不 过 无 论 哪 种 情况 ， 我 们 需要 使 用 的 信息 就 是 URL， 该 URL 可 以 从 
我 们 的 IT 部 门 获取 到 。 它 大 概 形 如 
http://user:pass@proxy.com:8080/。 如 果 我 们 使 用 的 是 Linux， 而 不 是 
虚拟 机 ， 很 可 能 已 经 完全 正确 配置 ， 不 再 需要 进一步 的 调整 。 不 过 如 果 
我 们 使 用 的 是 虚拟 机 ， 则 需要 使 代理 服务 器 在 Vagrant、Docker provider 
VM、Ubuntu 的 APT 下 载 以 及 Docker 服 务 自身 都 应 当 可 用 。 所 有 这 些 操 

















作 都 已 经 在 vagrantfile.dockerhost 中 进行 了 处 理 ， 我 们 只 需要 移 除 定 
义 proxy_ur1 行 的 注释 ， 并 正确 设置 其 值 即 可 。 


假设 过 到 了 如 下 的 SSL 相 关 的 问题 。 


SSL certificate problem: unable to get local issuer certificate 


If you'd like to turn off curl's verification of the certificate, use 
the -k (or --insecure) option. 


无 论 是 Vagrant 还 是 部 署 的 Docker， 我 们 都 很 可 能 需要 处 理 TLS 拦 截 
代理 的 问题 。 这 种 代理 由 在 以 一 种 “中 间 人 ”的 角色 监控 所 有 安全 和 不 安 
全 流量 。 它 们 代表 我 们 执行 https 请 求 ， 在 必要 时 验证 证 书 ， 而 我 们 执行 
到 它们 的 https 连 接 ， 验 证 它们 的 证 书 。 我 们 的 IT 部 门 很 可 能 会 提供 给 我 
们 一 个 证 书 ， 通 常情 况 下 是 .crt 文 件 的 形式 。 我 们 将 该 文件 的 副本 放 到 
本 书 主 目录 下 (vagrantfile 所 在 的 目录 ) 。 接 下 来 ， 按照 前 面 例子 设 
置 proxy_url1， 然 后 更 进一步 取消 挥 定义 crt_filename 变 量 所 在 行 的 注 
释 ， 将 其 值 设 置 为 我 们 的 证 书 文件 的 名 称 。 


A.6.8 如何 连接 Docker provider 虚 拟 机 


如 果 我 们 处 于 Linux 环 境 中 ， 并 且 没 有 使 用 虚拟 机 ， 那 么 我 们 的 机 
器 已 经 是 Docker provider， 此 时 无 需 做 任何 事情 。 如 果 我 们 使 用 的 是 虚 
拟 机 ， 那 么 可 以 通过 运行 vagrant global-status --prune 得 到 Docker 
provider 的 ID， 然 后 找到 名 为 docker-provider 的 机 器 。 我 们 可 以 在 Linux 
或 Mac 环 境 中 ， 使 用 别名 的 方式 对 其 实现 自动 化 。 


$ alias provider_id="vagrant global-status --prune | grep 'docker- 
provider' | awk '{print \$1i}'" 











我 们 可 以 使 用 vagrant ssh «provider id>， 或 者 在 已 设置 别名 的 情 
况 下 使 用 vagrant ssh $(provider_id) 来 连接 Docker provider。 在 这 里 是 
Ubuntu Trusty 64 位 虚拟 机 。 


A.6.9 每 个 服务 器 使 用 了 多 少 CPU/ 内 存 
如 果 我 们 使 用 了 原生 Docker 或 者 按照 前 一 个 答案 描述 的 方法 连接 


到 了 provider， 那 么 可 以 通过 docker stats， 看 到 每 台独 立 Docker 容 器 所 
消耗 的 资源 ， 如 下 所 示 。 


图 A.11 所 示 为 运行 第 11 章 代码 时 的 示例 输出 ， 此 时 是 Scrapyd 从 Web 
服务 器 集中 下 载 的 时 间 。 


"i ; — MEM A 








图 A.11 








如 果 我 们 使 用 了 原生 Docker， 或 者 按照 之 前 答案 中 看 到 的 方法 连接 


到 了 provider， 那 么 可 以 使 用 如 下 命令 但 看 Docker 镜 像 大 小 。 


$ docker images 





本 书 的 容器 都 是 基于 一 个 镜像 ， 每 个 变 体 上 安装 的 其 他 软件 都 很 
少 。 因 此 ， 我 们 看 到 的 GB 级 的 大 小 是 虚拟 大 小 ， 而 不 是 真 实 占用 的 磁 
盘 空间 。 如 采 我 们 想 要 查看 镜像 的 构建 层次 以 及 个 体 大 小 ， 可 以 为 很 长 
的 dockviz 命 令 创建 一 个 别名 ， 然 后 按照 如 下 所 示 进 行使 用 。 

$ alias dockviz="docker run --rm -v /var/run/docker.sock: /var/run/docker. 


sock nate/dockviz" 
$ dockviz images -t 


A.6.11 当 Vagrant 无 法 啊 应 时 ， 如 何 重 置 系统 


即使 最 终 处 于 一 个 连 Vagrant 也 无 法 重 置 的 混乱 状态 ， 我 们 也 可 以 
对 系统 进行 完全 重 置 。 我 们 可 以 在 不 重 置 虚 拟 主 机 的 情况 下 做 到 这 一 
点 ， 当 然 这 种 方式 需要 花费 一 些 时 间 来 完成 。 我 们 所 需要 做 的 就 是 连接 
到 docker provider 机 器 ， 强 行 停止 所 有 容 右 ， 移 除 它们 的 镜像 ， 然 后 重 
启 Docker。 具 体 命 令 如 下 所 示 。 








$ docker stop $(docker ps -a -q) 
$ docker rm $(docker ps -a -q) 
$ sudo service docker restart 


也 可 以 使 用 如 下 命令 。 


$ docker rmi $(docker images -a | grep "<none>" | awk "{print $3}") 





我 们 使 用 这 种 方式 移 除 了 下 载 的 所 有 Docker 层 内 容 ， 这 就 意味 着 下 
一 次 执行 vagrant up --no-parallel 时 将 会 花费 一 些 时 间 用 于 下 载 。 


A7 有 一 个 无 法 解决 的 问题 ， 怎 么 办 


我 们 可 以 随时 使 用 VirtualBox 以 及 从 


osboxes.org (http://www.osboxes.org/ubuntu/) 下 载 得 到 的 Ubuntu 
14.04.3 (Trusty Tahr) 镜像 ， 按 照 Linux 的 安装 过 程 操 作 。 代 码 将 会 完 
运行 在 虚拟 机 里 。 我 们 唯一 会 忽略 的 事情 是 端 


青 是 端口 转发 和 同步 文件 光 ， 这 
意味 着 要 么 我 们 手动 设置 它们 ， 要 么 在 虚拟 机 中 进行 开发 。 








欢迎 来 到 异步 社区 ! 


异步 社区 的 来 历 


异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 出 版 社 旗 下 IT 专业 图 书 旗 
舰 社 区 ， 于 2015 年 8 月 上 线 运 营 。 


异步 社区 依托 于 人 民 邮 电 出 版 社 20 余 年 的 IT 专业 优质 出 版 资源 和 编 
得 策划 团队 ， 打 造 传统 出 版 与 电子 出 版 和 自 出 版 结合 、 纸 质 书 与 电子 书 
结合 、 传 统 印刷 与 POD 按 需 印刷 结合 的 出 版 平台 ， 提 供 最 新 技术 资讯 
为 作者 和 读者 打造 交流 互动 的 平台 。 





Az TIX | 罗技 能 Q| dese qo Man de 


ER A 


THRUSH, 1585608 MMIH207! 为 答谢 社区 用 户 


即日 起 到 ] 入 + ch VHhoteiwes 
e^ 1mE8B d aIRTTL SRI 
月 26 号 | Je J TOF | T rr 








» KA n * -, 
[^ Kin e sc px emm L. 移动 开发 e 游戏 开发 


更 多 >> a a, 
免费 电子 书 — 
——— Free eBook jen 


我 要 写 书 -— 
Write for Us ume 
Python 机 器 学 习 一 一 预 — 贝 叶 斯 方法 ; SERR — 机 器 学 习 项 目 开发 实战 MHNT : 统计 建 模 


列 分 析 核 心 纂 法 与 贝 叶 斯 推 基 的 python 学 习 法 近期 活动 





asero: i 
mr 














ALD BABA T A? 


购买 图 书 

我 们 出 版 的 图 书 涵盖 主流 IT 技 术 ， 在 编程 语言 、Web 搁 术 、 数 据 科 
学 等 领域 有 众多 经 典 畅 销 图 书 。 社 区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 
400 多 种 ， 部 分 新 书 实现 纸 书 、 电 子 书 同 步 出 版 。 我 们 还 会 定期 发 布 新 
书 书 讯 。 
下 载 资源 

社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 


另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 束 
可 以 免费 下 载 。 


与 作 译 者 互动 
很 多 图 书 的 作 译 者 已 经 入 驻 社 区 ， 您 可 以 关注 他 们 ， 咨 询 技术 问 


题 ， 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 作 译 者 和 编辑 畅 聊 好 书 背 后 有 趣 
的 故事 ， 还 可 以 参与 社区 的 作者 访谈 栏目 ， 回 您 关注 的 作者 提出 采访 题 
H. 








灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直 接 从 人 民 
邮电 出 版 社 书 库 发 贷 ， 电 子 书 提供 多 种 阅读 格式 。 


对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 用 户 可 以 第 一 时 间 
买 到 心仪 的 新 书 。 


用 户 帐 户 中 的 积分 可 以 用 于 购书 优惠 。100 积 分 =1 元 ， 购 买 图 书 
时 ， 在 ”RE 本 里 填 入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 


特别 优惠 











购买 本 电子 书 的 读者 专 享 异步 社区 优惠 券 。 ”使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 
— 输入 “57AWG”， 然后 点 击 “ 使 用 优惠 码 ”， 即 可 享受 电子 书 8 折 优 惠 〈 本 优惠 券 只 
可 使 用 一 次 ) 。 


纸 电 图 书 组 合 购买 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购 买方 式 ， 价 格 优惠 ， 一 次 购 
买 ， 多 种 阅读 选择 。 
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Wireshark 网 络 分 析 的 艺术 


作者 cnm 
HH : is 
分 类 ; 计算 机 科学 > SESE > BLS 


Wireshark 是 当前 最 流行 的 网 络 包 分 析 工 具 。 它 上 手 简单 XXmuMAD. $$ 
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社区 里 还 可 以 做 什么 ? 


提交 勘误 


您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘误 被 确认 后 可 以 获得 100 
积分 。 热 心 勘 误 的 读者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 


写作 

社区 提供 基于 Markdown 的 写作 环境 ， 喜 欢 写作 的 您 可 以 在 此 一 试 
身手 ， 在 社区 里 分 享 您 的 技术 心得 和 读书 体会 ， 更 可 以 体验 上 自 出 版 的 乐 
趣 ， 轻 松 实现 出 版 的 梦想 。 


人 














会 议 活 动 早 知 道 
您 可 以 掌握 IT 圈 的 技术 会 议 资讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 


AR 


扫描 任意 二 维 码 都 能 找到 我 们 : 





异步 社区 





微 信 订 阅 号 





微 信 服务 号 





官方 微 博 








QQ 群 : 436746675 


社区 网 址 : www.epubit.com.cn 





官方 微 信 : 异步 社区 
官方 微 博 : @ 人 邮 异 步 社区 ，@ 人 民 邮 电 出 版 社 -信息 技术 分 社 


投稿 区 咨询 : contact@epubit.com.cn 
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